香港理工大学AI模型融合压缩技术实现性能提升新突破

将多个AI专家模型合并成一个,再压缩成小巧的格式,是部署到手机等边缘设备的理想路径。但香港理工大学联合PolyU-大亚湾技术创新研究院及InfiX.ai的研究团队发现,直接拼接这两个步骤,效果往往不尽如人意。他们提出的新方法E-PMQ,不仅解决了这个难题,甚至能让压缩后的模型表现超越合并前的状态。相关研究已于2026年5月16日以预印本形式公开。
一、从一个真实的部署难题说起
我们手机里的AI助手、平板上的图像识别,这些功能背后都运行着神经网络模型。然而,这些模型往往体积庞大,动辄占用几个GB甚至几十GB的存储空间。想把它们塞进一部手机或者一个边缘设备,就好比试图把一整个图书馆搬进一间储藏室,难度可想而知。
解决这个问题通常有两条路子。第一条是“压缩”,也就是把模型的参数从高精度的数字(比如32位浮点数)换成低精度的数字(比如4位整数),整个模型的体积一下子能缩小好几倍,这种技术叫做量化。第二条是“合并”,即把多个在不同任务上训练过的专家模型,通过数学方式混合成一个,这样一个模型就能同时具备多种能力。
一个很自然的想法是:能不能先合并,再压缩?最终得到一个既小又能干的单一模型,听起来两全其美。但现实是,直接把这两步拼凑在一起,效果常常令人失望。为此,研究团队提出了一套全新的方法——E-PMQ。
二、合并加压缩,为什么直接做不行?
让我们沿用刚才的比喻。现在不是搬一个图书馆,而是把八个不同主题的图书馆——比如汽车手册库、地图库、交通标志库——先混合成一个综合图书馆,再把这个综合图书馆压缩成袖珍版。
模型合并这一步,本质上是参数的数学混合。以常见的方法“任务算术”为例,它的做法是:计算每个专家模型相对于原始预训练模型的“改进量”(即任务向量),再把这些改进量按比例叠加回去。听起来很优雅,但不同专家的改进量之间可能互相干扰、抵消,合并后的模型未必能完整保留每个专家的能力。就像把八位厨师的秘方各取一半混在一起,最终味道可能是一锅奇怪的大杂烩。
这种“合并后的模型与原始各专家之间的偏差”,研究团队称之为“专家相对合并偏差”。
量化这一步,则是把高精度参数转换为低精度,必然会引入“量化偏差”。
问题就出在这里。当标准的量化方法(如GPTQ)直接应用于合并后的模型时,量化算法会拼命让压缩结果去接近那个已经存在偏差的合并模型。于是,合并偏差和量化偏差会叠加在一起,随着信号在网络中层层传递,误差不断积累放大,最终导致性能大幅下降。这就是“朴素合并后量化”的核心困境。
说得更直白些:如果原始专家的输出是“正确答案”,合并模型输出的是“改了几处的答案”。朴素量化是让压缩模型去模仿“改了几处的答案”,而不是努力还原“正确答案”,效果自然不理想。
三、E-PMQ的核心思路:让专家来当“老师”
研究团队提出的E-PMQ,全称是“专家引导的合并后量化”。它的核心思路可以用一个直观的场景来理解。
设想一位学生(即量化后的合并模型)需要同时掌握八门学科。朴素做法是让学生对照一本混合了八门知识的综合教材(合并模型)来学习,但这本教材本身就有混淆和错误。E-PMQ的做法则是:让八位原始学科专家(各个源专家模型)分别出题,学生根据每位专家的题目来学习,同时参照综合教材来防止自己走偏。
具体到技术层面,E-PMQ在对合并模型的每一层进行量化时,优化目标发生了根本改变。它不再只要求压缩参数模仿合并模型在该层的输出,而是同时要求其努力模仿各个源专家在该层应有的输出。为了防止模型过度偏向某一个专家而失去综合性,E-PMQ还引入了一个“合并权重锚定”项,把压缩参数拉回到合并模型的参数附近,起到平衡和稳定的作用。
这就好比给学生拴了一根有弹性的绳子:绳子允许他自由移动去向各位专家请教,但另一端固定在综合教材旁边,防止他完全跑到某一门学科里而忘了其他。
四、数学背后的细节:量化时怎么操作?
理解了直觉,再来看看E-PMQ在数学上如何实现。传统的GPTQ量化,其优化目标是让压缩层的输出尽量接近合并模型该层的输出。
E-PMQ则改写这个目标。它的优化目标由两部分组成:第一部分是让压缩参数在应对第i个专家任务时,其输出尽可能接近第i个源专家模型的输出,且对所有专家任务都要同时满足;第二部分则是约束压缩参数本身不要离合并模型的参数太远。前者负责向专家学习,后者负责保持综合性。
锚定的强度由一个参数α控制,并且是自适应的——它会根据不同层激活值的规模自动调整,确保每层都能得到合理的约束。
在求解这个优化目标时,E-PMQ巧妙地复用了GPTQ高效实现的工程框架,只需修改其内部使用的统计量,而无需重写整个求解过程。量化按照网络的前向顺序逐层进行,直到所有层都完成量化,最终得到一个单一的低比特合并模型。
五、专家只在“备考阶段”出现,正式上场只有一个模型
这一点特别关键,它直接关系到这项技术的实用价值。E-PMQ要求在量化阶段能够访问各个源专家模型,用它们来构建学习目标。这确实比朴素量化需要更多的计算资源,因为需要加载多个模型并为每个任务收集数据。
但这一切都只发生在部署之前的“备考阶段”。一旦量化完成,部署到设备上的就只有一个单一的低比特合并模型,既没有源专家,也没有任何额外的推理模块。从用户或设备的角度看,E-PMQ产出的模型与普通量化模型毫无二致:一个文件,一个模型,直接运行。所有的额外努力都在幕后完成了。
六、在视觉识别任务上的表现:从“大败”到“反超”
研究团队在视觉识别任务上进行了系统性测试,使用了OpenAI的CLIP模型。测试涵盖八项图像分类任务。
在八任务设置下,以“任务算术”方式合并的CLIP-ViT-B/32模型,全精度合并后平均准确率为68.0%。直接用GPTQ进行4比特量化后,准确率跌至65.0%。而使用E-PMQ后,准确率不降反升,达到了73.6%,比全精度合并模型还高出5.6个百分点。这意味着E-PMQ不仅在减少量化损失,实际上还在量化过程中帮助模型纠正了一部分合并带来的偏差。
对于质量更高的“WUDI合并”方式,全精度合并后准确率已高达84.5%,E-PMQ在4比特量化后仍能达到82.4%,与GPTQ的81.1%相近,保持了稳健性。
七、挑战升级:更多专家、更大模型,E-PMQ能否扛住?
研究团队进一步将测试规模扩展到14任务和20任务,并在更大的CLIP-ViT-L/14模型上验证。
结果非常显著。在20任务的CLIP-ViT-B/32设置下,“任务算术”合并后全精度模型的平均准确率仅有36.3%,这说明合并20个专家时参数干扰已非常严重。GPTQ量化后进一步跌至35.0%。而E-PMQ量化后则达到了64.2%,比全精度合并模型高出近28个百分点。
在更大的CLIP-ViT-L/14模型上,20任务设置下,GPTQ量化后准确率仅34.8%,而E-PMQ达到76.7%,提升了近42个百分点。这表明,任务数越多、合并质量越差,E-PMQ通过源专家引导所能带来的修正效果就越显著。
八、语言模型也适用:FLAN-T5在自然语言理解任务上的验证
视觉任务的成功并不意味着E-PMQ只适用于图像模型。研究团队在自然语言处理领域也进行了验证,使用谷歌的FLAN-T5-base模型在八项自然语言理解任务上测试。
在“任务算术”合并方式下,全精度合并模型平均得分78.79。GPTQ量化后略降至78.26。而E-PMQ量化后则达到了83.34,比全精度合并模型高出4.55个百分点。
其中,在MNLI任务上,全精度合并模型得分57.66,GPTQ量化后降至55.99,而E-PMQ量化后飙升至82.50,提升幅度超过24个百分点。这说明在该任务上合并本身存在较大偏差,而E-PMQ在量化过程中有效修正了这一偏差。
九、更大的语言模型:Llama-3.1系列的测试
研究团队还在Meta的Llama-3.1-3B和Llama-3.1-8B模型上进行了初步验证,合并了指令跟随、编程、数学推理和多语言理解四位专家。
在Llama-3.1-3B上,E-PMQ量化后的得分最接近全精度水平。在Llama-3.1-8B上,E-PMQ同样是所有量化方法中最优的。不过,在大型语言模型上,E-PMQ的相对提升幅度比在视觉和中等规模语言模型上要小一些,这可能与LLM的量化难度、合并配置及评测任务多样性有关,未来还需更深入的探索。
十、“锚定”有多重要?去掉它会怎样
为了验证“合并权重锚定”设计的必要性,研究团队进行了消融实验。结论非常极端:去掉锚定之后,E-PMQ会发生灾难性的崩溃。
在八任务CLIP-ViT-B/32的“任务算术”设置下,去掉锚定后,平均准确率从74.09%直接跌至5.37%,几乎变成随机猜测。这个结果说明,单纯的专家引导目标在没有锚定约束的情况下,会导致量化求解过程完全失控。锚定项为整个优化过程提供了至关重要的数值稳定性,是E-PMQ能够正常工作的根基。
十一、量化精度的影响:从8比特到3比特,E-PMQ始终更好
研究团队测试了不同量化比特宽度下E-PMQ与GPTQ的对比,覆盖了3比特到8比特。
结果显示,在所有比特宽度下,E-PMQ都优于GPTQ。而且,比特数越低(量化越激进),E-PMQ的相对优势越大。这符合直觉:量化越狠,误差越大,朴素方法“盲从”合并模型的代价就越高,而E-PMQ通过专家引导来减小误差积累的价值也就越突出。
十二、校准数据需要多少?效率分析
最后,研究团队考察了校准数据量与效果之间的权衡。在八任务设置下,当把每个任务的校准量从256张压缩到64张时,E-PMQ的平均准确率仍然比GPTQ使用全量校准数据时的效果高出7.2个百分点。这说明专家引导的校准信号质量远高于单纯重建合并模型的信号。
当然,E-PMQ的量化时间比GPTQ更长,大约是2.4倍。但这些时间全部发生在部署前的一次性准备阶段,部署后的推理速度完全相同。简而言之,E-PMQ提供了一个“用更多的备考时间,换来更好的考试成绩”的方案,而且上场考试的仍然是同一位学生。
由此可见,将多个AI专家合并再压缩,并非简单地将两个现成工具叠加。香港理工大学的这项研究,通过严格的理论分析揭示了合并偏差与量化偏差叠加的核心问题,并提出了E-PMQ这一系统性解决方案。这项工作为“先合并后量化”这一实用的低资源部署流程提供了坚实的方法论基础。
Q&A
Q1:E-PMQ量化需要保留原始专家模型吗?部署时有什么额外开销?
A:E-PMQ只在量化阶段需要访问源专家模型。量化完成后,部署到设备上的仅是一个单一的低比特合并模型,不需要保留任何源专家模型或额外模块,推理开销与普通量化模型完全相同。
Q2:合并权重锚定在E-PMQ里有多重要?
A:锚定设计是E-PMQ正常工作的核心。实验表明,去掉锚定后,模型性能会发生灾难性崩溃。锚定项通过把压缩参数拉向合并模型,防止量化求解过程失控,是整个方法数值稳定性的根基。
Q3:E-PMQ在任务数量更多时表现如何?
A:任务数量越多,E-PMQ的提升越显著。因为在合并任务越多时,合并模型偏离各源专家的程度越大,E-PMQ通过专家引导所能修正的偏差空间也就越大。
相关攻略
五一假期期间,一位用户向豆包AI咨询了一个看似普通的问题:从石家庄飞往重庆的机票,退票手续费是多少? 豆包的回答简洁而肯定:只扣5%,放心退。 既然AI都这么说了,这位用户便没有再去航空公司官网核实,直接点击了退票。结果扣款通知弹出,手续费高达40%,足足损失了600元。 如果故事到此为止,那这不过
腾讯推出AI应用生成平台“吐司”,用户通过自然语言描述即可快速生成安卓应用原型,实时调整并打包为APK。平台支持分享与二次创作,旨在降低技术门槛,让普通用户在移动端实现从创意到应用的全流程。目前产品公测限免,体现了AI应用生成从专业工具向大众创作工具的发展趋势。
Canva可画通过AI推荐模式、AI联想图库和AI推荐替换等功能,更精准理解用户设计意图,按语义相似度排序结果,生成风格化素材并提供贴合设计的替代方案,使AI从被动搜索变为主动设计搭档,推荐更符合个人风格与需求。
SeedeAI能辅助团队高效撰写公关稿件和新闻通稿。它可将结构化事件信息自动生成符合媒体规范、具备倒金字塔结构和5W1H要素的初稿。系统支持上传权威媒体样稿以实现风格对齐,并通过图层编辑器分段优化新闻要素。最终可导出带元数据的结构化源文件,便于媒体编辑修改,降低沟通成本。
RegexGeneratorAI是什么 正则表达式,作为文本匹配与数据提取的利器,常因其复杂的语法规则令开发者望而生畏。如今,这一局面被AI技术所改变——RegexGeneratorAI应运而生。本质上,它是一款基于人工智能的正则表达式智能生成器,能够将用户用日常语言描述的需求,直接、准确地转化为可
热门专题
热门推荐
市场研究是通过科学方法系统收集、分析市场信息,以把握现状与趋势,为决策提供依据的过程。其核心在于评估可行性、优化运营并理解客户需求,综合运用定性与定量方法,最终形成涵盖行业、产品及用户等多维度的准确报告,支持有效决策。
对于广大体育迷而言,观看赛事直播早已不仅是获取比分和结果,更是一种沉浸式体验竞技魅力、感受现场热烈氛围的重要方式。然而,传统直播模式中时常出现的画面模糊、音质平淡、广告频繁以及播放卡顿等问题,严重影响了观赛的沉浸感与流畅度。懂球体育赛事直播插件正是针对这些核心痛点而设计,通过提供高清流畅的视觉呈现、
前四个月移动互联网流量同比增长18 5%,电信业务总量按不变价计算增长8%。千兆宽带用户占比超三分之一,5G用户占比近七成,物联网终端用户接近30亿。户均移动流量达23 17GB,传统语音业务持续萎缩。千兆光网与5G网络覆盖持续深化,各地区发展较为均衡,数字生活渗透进一步加深。
跨服竞技玩法“瑶池秘境”每周开放,玩家通过手动报名参与周赛,胜负影响积分与段位。建议根据真实战力选择段位,注重战前装备与阵容调整。利用积分差战术可高效冲分,赛季末是黄金时机。复盘对战细节、把握挑战节奏,方能稳定获取限定奖励。





