游乐游手机版
首页/科技数码/文章详情

香港理工大学AI模型融合压缩技术实现性能提升新突破

时间:2026-05-26 07:11
香港理工大学等机构提出E-PMQ新方法,解决了AI专家模型合并后再压缩时性能下降的难题。该方法在量化过程中引入各源专家模型的输出作为引导,并利用合并权重锚定保持平衡。实验表明,E-PMQ能使压缩后模型性能超越合并前水平,且部署时仅需单一轻量模型,适用于视觉与语言任务。


将多个AI专家模型合并成一个,再压缩成小巧的格式,是部署到手机等边缘设备的理想路径。但香港理工大学联合PolyU-大亚湾技术创新研究院及InfiX.ai的研究团队发现,直接拼接这两个步骤,效果往往不尽如人意。他们提出的新方法E-PMQ,不仅解决了这个难题,甚至能让压缩后的模型表现超越合并前的状态。相关研究已于2026年5月16日以预印本形式公开。

一、从一个真实的部署难题说起

我们手机里的AI助手、平板上的图像识别,这些功能背后都运行着神经网络模型。然而,这些模型往往体积庞大,动辄占用几个GB甚至几十GB的存储空间。想把它们塞进一部手机或者一个边缘设备,就好比试图把一整个图书馆搬进一间储藏室,难度可想而知。

解决这个问题通常有两条路子。第一条是“压缩”,也就是把模型的参数从高精度的数字(比如32位浮点数)换成低精度的数字(比如4位整数),整个模型的体积一下子能缩小好几倍,这种技术叫做量化。第二条是“合并”,即把多个在不同任务上训练过的专家模型,通过数学方式混合成一个,这样一个模型就能同时具备多种能力。

一个很自然的想法是:能不能先合并,再压缩?最终得到一个既小又能干的单一模型,听起来两全其美。但现实是,直接把这两步拼凑在一起,效果常常令人失望。为此,研究团队提出了一套全新的方法——E-PMQ。

二、合并加压缩,为什么直接做不行?

让我们沿用刚才的比喻。现在不是搬一个图书馆,而是把八个不同主题的图书馆——比如汽车手册库、地图库、交通标志库——先混合成一个综合图书馆,再把这个综合图书馆压缩成袖珍版。

模型合并这一步,本质上是参数的数学混合。以常见的方法“任务算术”为例,它的做法是:计算每个专家模型相对于原始预训练模型的“改进量”(即任务向量),再把这些改进量按比例叠加回去。听起来很优雅,但不同专家的改进量之间可能互相干扰、抵消,合并后的模型未必能完整保留每个专家的能力。就像把八位厨师的秘方各取一半混在一起,最终味道可能是一锅奇怪的大杂烩。

这种“合并后的模型与原始各专家之间的偏差”,研究团队称之为“专家相对合并偏差”。

量化这一步,则是把高精度参数转换为低精度,必然会引入“量化偏差”。

问题就出在这里。当标准的量化方法(如GPTQ)直接应用于合并后的模型时,量化算法会拼命让压缩结果去接近那个已经存在偏差的合并模型。于是,合并偏差和量化偏差会叠加在一起,随着信号在网络中层层传递,误差不断积累放大,最终导致性能大幅下降。这就是“朴素合并后量化”的核心困境。

说得更直白些:如果原始专家的输出是“正确答案”,合并模型输出的是“改了几处的答案”。朴素量化是让压缩模型去模仿“改了几处的答案”,而不是努力还原“正确答案”,效果自然不理想。

三、E-PMQ的核心思路:让专家来当“老师”

研究团队提出的E-PMQ,全称是“专家引导的合并后量化”。它的核心思路可以用一个直观的场景来理解。

设想一位学生(即量化后的合并模型)需要同时掌握八门学科。朴素做法是让学生对照一本混合了八门知识的综合教材(合并模型)来学习,但这本教材本身就有混淆和错误。E-PMQ的做法则是:让八位原始学科专家(各个源专家模型)分别出题,学生根据每位专家的题目来学习,同时参照综合教材来防止自己走偏。

具体到技术层面,E-PMQ在对合并模型的每一层进行量化时,优化目标发生了根本改变。它不再只要求压缩参数模仿合并模型在该层的输出,而是同时要求其努力模仿各个源专家在该层应有的输出。为了防止模型过度偏向某一个专家而失去综合性,E-PMQ还引入了一个“合并权重锚定”项,把压缩参数拉回到合并模型的参数附近,起到平衡和稳定的作用。

这就好比给学生拴了一根有弹性的绳子:绳子允许他自由移动去向各位专家请教,但另一端固定在综合教材旁边,防止他完全跑到某一门学科里而忘了其他。

四、数学背后的细节:量化时怎么操作?

理解了直觉,再来看看E-PMQ在数学上如何实现。传统的GPTQ量化,其优化目标是让压缩层的输出尽量接近合并模型该层的输出。

E-PMQ则改写这个目标。它的优化目标由两部分组成:第一部分是让压缩参数在应对第i个专家任务时,其输出尽可能接近第i个源专家模型的输出,且对所有专家任务都要同时满足;第二部分则是约束压缩参数本身不要离合并模型的参数太远。前者负责向专家学习,后者负责保持综合性。

锚定的强度由一个参数α控制,并且是自适应的——它会根据不同层激活值的规模自动调整,确保每层都能得到合理的约束。

在求解这个优化目标时,E-PMQ巧妙地复用了GPTQ高效实现的工程框架,只需修改其内部使用的统计量,而无需重写整个求解过程。量化按照网络的前向顺序逐层进行,直到所有层都完成量化,最终得到一个单一的低比特合并模型。

五、专家只在“备考阶段”出现,正式上场只有一个模型

这一点特别关键,它直接关系到这项技术的实用价值。E-PMQ要求在量化阶段能够访问各个源专家模型,用它们来构建学习目标。这确实比朴素量化需要更多的计算资源,因为需要加载多个模型并为每个任务收集数据。

但这一切都只发生在部署之前的“备考阶段”。一旦量化完成,部署到设备上的就只有一个单一的低比特合并模型,既没有源专家,也没有任何额外的推理模块。从用户或设备的角度看,E-PMQ产出的模型与普通量化模型毫无二致:一个文件,一个模型,直接运行。所有的额外努力都在幕后完成了。

六、在视觉识别任务上的表现:从“大败”到“反超”

研究团队在视觉识别任务上进行了系统性测试,使用了OpenAI的CLIP模型。测试涵盖八项图像分类任务。

在八任务设置下,以“任务算术”方式合并的CLIP-ViT-B/32模型,全精度合并后平均准确率为68.0%。直接用GPTQ进行4比特量化后,准确率跌至65.0%。而使用E-PMQ后,准确率不降反升,达到了73.6%,比全精度合并模型还高出5.6个百分点。这意味着E-PMQ不仅在减少量化损失,实际上还在量化过程中帮助模型纠正了一部分合并带来的偏差。

对于质量更高的“WUDI合并”方式,全精度合并后准确率已高达84.5%,E-PMQ在4比特量化后仍能达到82.4%,与GPTQ的81.1%相近,保持了稳健性。

七、挑战升级:更多专家、更大模型,E-PMQ能否扛住?

研究团队进一步将测试规模扩展到14任务和20任务,并在更大的CLIP-ViT-L/14模型上验证。

结果非常显著。在20任务的CLIP-ViT-B/32设置下,“任务算术”合并后全精度模型的平均准确率仅有36.3%,这说明合并20个专家时参数干扰已非常严重。GPTQ量化后进一步跌至35.0%。而E-PMQ量化后则达到了64.2%,比全精度合并模型高出近28个百分点。

在更大的CLIP-ViT-L/14模型上,20任务设置下,GPTQ量化后准确率仅34.8%,而E-PMQ达到76.7%,提升了近42个百分点。这表明,任务数越多、合并质量越差,E-PMQ通过源专家引导所能带来的修正效果就越显著。

八、语言模型也适用:FLAN-T5在自然语言理解任务上的验证

视觉任务的成功并不意味着E-PMQ只适用于图像模型。研究团队在自然语言处理领域也进行了验证,使用谷歌的FLAN-T5-base模型在八项自然语言理解任务上测试。

在“任务算术”合并方式下,全精度合并模型平均得分78.79。GPTQ量化后略降至78.26。而E-PMQ量化后则达到了83.34,比全精度合并模型高出4.55个百分点。

其中,在MNLI任务上,全精度合并模型得分57.66,GPTQ量化后降至55.99,而E-PMQ量化后飙升至82.50,提升幅度超过24个百分点。这说明在该任务上合并本身存在较大偏差,而E-PMQ在量化过程中有效修正了这一偏差。

九、更大的语言模型:Llama-3.1系列的测试

研究团队还在Meta的Llama-3.1-3B和Llama-3.1-8B模型上进行了初步验证,合并了指令跟随、编程、数学推理和多语言理解四位专家。

在Llama-3.1-3B上,E-PMQ量化后的得分最接近全精度水平。在Llama-3.1-8B上,E-PMQ同样是所有量化方法中最优的。不过,在大型语言模型上,E-PMQ的相对提升幅度比在视觉和中等规模语言模型上要小一些,这可能与LLM的量化难度、合并配置及评测任务多样性有关,未来还需更深入的探索。

十、“锚定”有多重要?去掉它会怎样

为了验证“合并权重锚定”设计的必要性,研究团队进行了消融实验。结论非常极端:去掉锚定之后,E-PMQ会发生灾难性的崩溃。

在八任务CLIP-ViT-B/32的“任务算术”设置下,去掉锚定后,平均准确率从74.09%直接跌至5.37%,几乎变成随机猜测。这个结果说明,单纯的专家引导目标在没有锚定约束的情况下,会导致量化求解过程完全失控。锚定项为整个优化过程提供了至关重要的数值稳定性,是E-PMQ能够正常工作的根基。

十一、量化精度的影响:从8比特到3比特,E-PMQ始终更好

研究团队测试了不同量化比特宽度下E-PMQ与GPTQ的对比,覆盖了3比特到8比特。

结果显示,在所有比特宽度下,E-PMQ都优于GPTQ。而且,比特数越低(量化越激进),E-PMQ的相对优势越大。这符合直觉:量化越狠,误差越大,朴素方法“盲从”合并模型的代价就越高,而E-PMQ通过专家引导来减小误差积累的价值也就越突出。

十二、校准数据需要多少?效率分析

最后,研究团队考察了校准数据量与效果之间的权衡。在八任务设置下,当把每个任务的校准量从256张压缩到64张时,E-PMQ的平均准确率仍然比GPTQ使用全量校准数据时的效果高出7.2个百分点。这说明专家引导的校准信号质量远高于单纯重建合并模型的信号。

当然,E-PMQ的量化时间比GPTQ更长,大约是2.4倍。但这些时间全部发生在部署前的一次性准备阶段,部署后的推理速度完全相同。简而言之,E-PMQ提供了一个“用更多的备考时间,换来更好的考试成绩”的方案,而且上场考试的仍然是同一位学生。

由此可见,将多个AI专家合并再压缩,并非简单地将两个现成工具叠加。香港理工大学的这项研究,通过严格的理论分析揭示了合并偏差与量化偏差叠加的核心问题,并提出了E-PMQ这一系统性解决方案。这项工作为“先合并后量化”这一实用的低资源部署流程提供了坚实的方法论基础。

Q&A

Q1:E-PMQ量化需要保留原始专家模型吗?部署时有什么额外开销?

A:E-PMQ只在量化阶段需要访问源专家模型。量化完成后,部署到设备上的仅是一个单一的低比特合并模型,不需要保留任何源专家模型或额外模块,推理开销与普通量化模型完全相同。

Q2:合并权重锚定在E-PMQ里有多重要?

A:锚定设计是E-PMQ正常工作的核心。实验表明,去掉锚定后,模型性能会发生灾难性崩溃。锚定项通过把压缩参数拉向合并模型,防止量化求解过程失控,是整个方法数值稳定性的根基。

Q3:E-PMQ在任务数量更多时表现如何?

A:任务数量越多,E-PMQ的提升越显著。因为在合并任务越多时,合并模型偏离各源专家的程度越大,E-PMQ通过专家引导所能修正的偏差空间也就越大。

来源:https://www.163.com/dy/article/KTQ9DFEN0511DTVV.html
上一篇金晟新能赴港IPO三年亏损近10亿 锂电回收行业前景解析 下一篇OPPO Reno16系列新品发布 学生专享购机补贴来袭
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。