香港理工大学AI模型融合压缩技术实现性能提升新突破

时间：2026-05-26 07:11

香港理工大学等机构提出E-PMQ新方法，解决了AI专家模型合并后再压缩时性能下降的难题。该方法在量化过程中引入各源专家模型的输出作为引导，并利用合并权重锚定保持平衡。实验表明，E-PMQ能使压缩后模型性能超越合并前水平，且部署时仅需单一轻量模型，适用于视觉与语言任务。

将多个AI专家模型合并成一个，再压缩成小巧的格式，是部署到手机等边缘设备的理想路径。但香港理工大学联合PolyU-大亚湾技术创新研究院及InfiX.ai的研究团队发现，直接拼接这两个步骤，效果往往不尽如人意。他们提出的新方法E-PMQ，不仅解决了这个难题，甚至能让压缩后的模型表现超越合并前的状态。相关研究已于2026年5月16日以预印本形式公开。

一、从一个真实的部署难题说起

我们手机里的AI助手、平板上的图像识别，这些功能背后都运行着神经网络模型。然而，这些模型往往体积庞大，动辄占用几个GB甚至几十GB的存储空间。想把它们塞进一部手机或者一个边缘设备，就好比试图把一整个图书馆搬进一间储藏室，难度可想而知。

解决这个问题通常有两条路子。第一条是“压缩”，也就是把模型的参数从高精度的数字（比如32位浮点数）换成低精度的数字（比如4位整数），整个模型的体积一下子能缩小好几倍，这种技术叫做量化。第二条是“合并”，即把多个在不同任务上训练过的专家模型，通过数学方式混合成一个，这样一个模型就能同时具备多种能力。

一个很自然的想法是：能不能先合并，再压缩？最终得到一个既小又能干的单一模型，听起来两全其美。但现实是，直接把这两步拼凑在一起，效果常常令人失望。为此，研究团队提出了一套全新的方法——E-PMQ。

二、合并加压缩，为什么直接做不行？

让我们沿用刚才的比喻。现在不是搬一个图书馆，而是把八个不同主题的图书馆——比如汽车手册库、地图库、交通标志库——先混合成一个综合图书馆，再把这个综合图书馆压缩成袖珍版。

模型合并这一步，本质上是参数的数学混合。以常见的方法“任务算术”为例，它的做法是：计算每个专家模型相对于原始预训练模型的“改进量”（即任务向量），再把这些改进量按比例叠加回去。听起来很优雅，但不同专家的改进量之间可能互相干扰、抵消，合并后的模型未必能完整保留每个专家的能力。就像把八位厨师的秘方各取一半混在一起，最终味道可能是一锅奇怪的大杂烩。

这种“合并后的模型与原始各专家之间的偏差”，研究团队称之为“专家相对合并偏差”。

量化这一步，则是把高精度参数转换为低精度，必然会引入“量化偏差”。

问题就出在这里。当标准的量化方法（如GPTQ）直接应用于合并后的模型时，量化算法会拼命让压缩结果去接近那个已经存在偏差的合并模型。于是，合并偏差和量化偏差会叠加在一起，随着信号在网络中层层传递，误差不断积累放大，最终导致性能大幅下降。这就是“朴素合并后量化”的核心困境。

说得更直白些：如果原始专家的输出是“正确答案”，合并模型输出的是“改了几处的答案”。朴素量化是让压缩模型去模仿“改了几处的答案”，而不是努力还原“正确答案”，效果自然不理想。

三、E-PMQ的核心思路：让专家来当“老师”

研究团队提出的E-PMQ，全称是“专家引导的合并后量化”。它的核心思路可以用一个直观的场景来理解。

设想一位学生（即量化后的合并模型）需要同时掌握八门学科。朴素做法是让学生对照一本混合了八门知识的综合教材（合并模型）来学习，但这本教材本身就有混淆和错误。E-PMQ的做法则是：让八位原始学科专家（各个源专家模型）分别出题，学生根据每位专家的题目来学习，同时参照综合教材来防止自己走偏。

具体到技术层面，E-PMQ在对合并模型的每一层进行量化时，优化目标发生了根本改变。它不再只要求压缩参数模仿合并模型在该层的输出，而是同时要求其努力模仿各个源专家在该层应有的输出。为了防止模型过度偏向某一个专家而失去综合性，E-PMQ还引入了一个“合并权重锚定”项，把压缩参数拉回到合并模型的参数附近，起到平衡和稳定的作用。

这就好比给学生拴了一根有弹性的绳子：绳子允许他自由移动去向各位专家请教，但另一端固定在综合教材旁边，防止他完全跑到某一门学科里而忘了其他。

四、数学背后的细节：量化时怎么操作？

理解了直觉，再来看看E-PMQ在数学上如何实现。传统的GPTQ量化，其优化目标是让压缩层的输出尽量接近合并模型该层的输出。

E-PMQ则改写这个目标。它的优化目标由两部分组成：第一部分是让压缩参数在应对第i个专家任务时，其输出尽可能接近第i个源专家模型的输出，且对所有专家任务都要同时满足；第二部分则是约束压缩参数本身不要离合并模型的参数太远。前者负责向专家学习，后者负责保持综合性。

锚定的强度由一个参数α控制，并且是自适应的——它会根据不同层激活值的规模自动调整，确保每层都能得到合理的约束。

在求解这个优化目标时，E-PMQ巧妙地复用了GPTQ高效实现的工程框架，只需修改其内部使用的统计量，而无需重写整个求解过程。量化按照网络的前向顺序逐层进行，直到所有层都完成量化，最终得到一个单一的低比特合并模型。

五、专家只在“备考阶段”出现，正式上场只有一个模型

这一点特别关键，它直接关系到这项技术的实用价值。E-PMQ要求在量化阶段能够访问各个源专家模型，用它们来构建学习目标。这确实比朴素量化需要更多的计算资源，因为需要加载多个模型并为每个任务收集数据。

但这一切都只发生在部署之前的“备考阶段”。一旦量化完成，部署到设备上的就只有一个单一的低比特合并模型，既没有源专家，也没有任何额外的推理模块。从用户或设备的角度看，E-PMQ产出的模型与普通量化模型毫无二致：一个文件，一个模型，直接运行。所有的额外努力都在幕后完成了。

六、在视觉识别任务上的表现：从“大败”到“反超”

研究团队在视觉识别任务上进行了系统性测试，使用了OpenAI的CLIP模型。测试涵盖八项图像分类任务。

在八任务设置下，以“任务算术”方式合并的CLIP-ViT-B/32模型，全精度合并后平均准确率为68.0%。直接用GPTQ进行4比特量化后，准确率跌至65.0%。而使用E-PMQ后，准确率不降反升，达到了73.6%，比全精度合并模型还高出5.6个百分点。这意味着E-PMQ不仅在减少量化损失，实际上还在量化过程中帮助模型纠正了一部分合并带来的偏差。

对于质量更高的“WUDI合并”方式，全精度合并后准确率已高达84.5%，E-PMQ在4比特量化后仍能达到82.4%，与GPTQ的81.1%相近，保持了稳健性。

七、挑战升级：更多专家、更大模型，E-PMQ能否扛住？

研究团队进一步将测试规模扩展到14任务和20任务，并在更大的CLIP-ViT-L/14模型上验证。

结果非常显著。在20任务的CLIP-ViT-B/32设置下，“任务算术”合并后全精度模型的平均准确率仅有36.3%，这说明合并20个专家时参数干扰已非常严重。GPTQ量化后进一步跌至35.0%。而E-PMQ量化后则达到了64.2%，比全精度合并模型高出近28个百分点。

在更大的CLIP-ViT-L/14模型上，20任务设置下，GPTQ量化后准确率仅34.8%，而E-PMQ达到76.7%，提升了近42个百分点。这表明，任务数越多、合并质量越差，E-PMQ通过源专家引导所能带来的修正效果就越显著。

八、语言模型也适用：FLAN-T5在自然语言理解任务上的验证

视觉任务的成功并不意味着E-PMQ只适用于图像模型。研究团队在自然语言处理领域也进行了验证，使用谷歌的FLAN-T5-base模型在八项自然语言理解任务上测试。

在“任务算术”合并方式下，全精度合并模型平均得分78.79。GPTQ量化后略降至78.26。而E-PMQ量化后则达到了83.34，比全精度合并模型高出4.55个百分点。

其中，在MNLI任务上，全精度合并模型得分57.66，GPTQ量化后降至55.99，而E-PMQ量化后飙升至82.50，提升幅度超过24个百分点。这说明在该任务上合并本身存在较大偏差，而E-PMQ在量化过程中有效修正了这一偏差。

九、更大的语言模型：Llama-3.1系列的测试

研究团队还在Meta的Llama-3.1-3B和Llama-3.1-8B模型上进行了初步验证，合并了指令跟随、编程、数学推理和多语言理解四位专家。

在Llama-3.1-3B上，E-PMQ量化后的得分最接近全精度水平。在Llama-3.1-8B上，E-PMQ同样是所有量化方法中最优的。不过，在大型语言模型上，E-PMQ的相对提升幅度比在视觉和中等规模语言模型上要小一些，这可能与LLM的量化难度、合并配置及评测任务多样性有关，未来还需更深入的探索。

十、“锚定”有多重要？去掉它会怎样

为了验证“合并权重锚定”设计的必要性，研究团队进行了消融实验。结论非常极端：去掉锚定之后，E-PMQ会发生灾难性的崩溃。

在八任务CLIP-ViT-B/32的“任务算术”设置下，去掉锚定后，平均准确率从74.09%直接跌至5.37%，几乎变成随机猜测。这个结果说明，单纯的专家引导目标在没有锚定约束的情况下，会导致量化求解过程完全失控。锚定项为整个优化过程提供了至关重要的数值稳定性，是E-PMQ能够正常工作的根基。

十一、量化精度的影响：从8比特到3比特，E-PMQ始终更好

研究团队测试了不同量化比特宽度下E-PMQ与GPTQ的对比，覆盖了3比特到8比特。

结果显示，在所有比特宽度下，E-PMQ都优于GPTQ。而且，比特数越低（量化越激进），E-PMQ的相对优势越大。这符合直觉：量化越狠，误差越大，朴素方法“盲从”合并模型的代价就越高，而E-PMQ通过专家引导来减小误差积累的价值也就越突出。

十二、校准数据需要多少？效率分析

最后，研究团队考察了校准数据量与效果之间的权衡。在八任务设置下，当把每个任务的校准量从256张压缩到64张时，E-PMQ的平均准确率仍然比GPTQ使用全量校准数据时的效果高出7.2个百分点。这说明专家引导的校准信号质量远高于单纯重建合并模型的信号。

当然，E-PMQ的量化时间比GPTQ更长，大约是2.4倍。但这些时间全部发生在部署前的一次性准备阶段，部署后的推理速度完全相同。简而言之，E-PMQ提供了一个“用更多的备考时间，换来更好的考试成绩”的方案，而且上场考试的仍然是同一位学生。

由此可见，将多个AI专家合并再压缩，并非简单地将两个现成工具叠加。香港理工大学的这项研究，通过严格的理论分析揭示了合并偏差与量化偏差叠加的核心问题，并提出了E-PMQ这一系统性解决方案。这项工作为“先合并后量化”这一实用的低资源部署流程提供了坚实的方法论基础。

Q&A

Q1：E-PMQ量化需要保留原始专家模型吗？部署时有什么额外开销？

A：E-PMQ只在量化阶段需要访问源专家模型。量化完成后，部署到设备上的仅是一个单一的低比特合并模型，不需要保留任何源专家模型或额外模块，推理开销与普通量化模型完全相同。

Q2：合并权重锚定在E-PMQ里有多重要？

A：锚定设计是E-PMQ正常工作的核心。实验表明，去掉锚定后，模型性能会发生灾难性崩溃。锚定项通过把压缩参数拉向合并模型，防止量化求解过程失控，是整个方法数值稳定性的根基。

Q3：E-PMQ在任务数量更多时表现如何？

A：任务数量越多，E-PMQ的提升越显著。因为在合并任务越多时，合并模型偏离各源专家的程度越大，E-PMQ通过专家引导所能修正的偏差空间也就越大。

来源：https://www.163.com/dy/article/KTQ9DFEN0511DTVV.html

上一篇金晟新能赴港IPO三年亏损近10亿锂电回收行业前景解析 下一篇OPPO Reno16系列新品发布学生专享购机补贴来袭

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。