首页 游戏 软件 资讯 排行榜 专题
首页
AI
三星与米拉研究院专家合并技术实现AI模型高效瘦身不损性能

三星与米拉研究院专家合并技术实现AI模型高效瘦身不损性能

热心网友
26
转载
2026-05-15

这项研究由三星人工智能蒙特利尔实验室、米拉魁北克人工智能研究院、蒙特利尔理工学院、蒙特利尔大学、麦吉尔大学及三星韩国人工智能中心联合完成,并于2026年4月在预印本平台arXiv上发布,论文编号为arXiv:2604.04356v1。

三星AI蒙特利尔实验室与米拉研究院联手:让AI大模型

当前AI部署面临一个核心挑战:随着顶级大语言模型的参数规模膨胀至数千亿级别,将其实际部署到产品中变得极其昂贵。问题的关键并非运算速度,而是模型庞大的“体积”——仅将其加载到内存中,就足以让大多数硬件设备难以承受。为了解决这一根本性的“内存瓶颈”,研究团队提出了一种名为REAM(路由器加权专家激活合并)的创新方法。其核心思想可以用一个生动的比喻来理解:当一家公司需要精简架构时,是选择直接解雇部分员工,还是将职责相近的员工合并成一个综合岗位?REAM方法坚定地选择了后者。整个研究都围绕着“合并而非删除”这一核心理念展开。

一、为什么大模型会有这么多“专家”,他们又为何会变成负担

要理解这项研究,首先需要了解“专家混合”(Mixture-of-Experts, MoE)模型架构。与普通大模型让所有计算单元全程参与不同,MoE模型内部包含大量被称为“专家”的子网络。在处理每个输入时,模型仅激活其中一小部分相关专家,其余则处于休眠状态。这就像一家大型综合医院,病人只需根据病症挂对应科室的号,无需全院所有医生同时会诊。这种设计旨在以较低的实际计算成本,通过海量专家储备来积累广泛的知识。

然而,矛盾也随之产生。以先进的Qwen3模型为例,其每一层可能包含128个专家,但每次前向传播仅激活其中的8个。这意味着,尽管大部分专家处于“待机”状态,但所有128个专家的参数都必须完整地驻留在内存中。对于参数规模达数百亿甚至上千亿的顶级模型而言,这种内存开销使得许多实际应用场景变得不可行。

进一步的研究揭示,这些数量庞大的专家并非全部高效。许多专家的功能存在高度重叠,造成了显著的冗余,就像医院里设置了过多诊疗范围相似的科室。这一发现为模型“瘦身”提供了关键突破口:如果能精准识别出那些执行重复工作的专家,就有可能安全地将它们合并或精简,同时最大限度地保留模型的整体能力。

二、“删除”还是“合并”:两种模型压缩思路的利弊

在REAM方法出现之前,压缩MoE模型主要有两种技术路径,恰如企业架构调整的两种策略。

第一种是“专家剪枝”,这相当于直接“裁员”——将模型中认为不重要的专家彻底删除。这种方法简单直接,但其代价是被删除专家所承载的特定知识会永久丢失。如果某些任务恰好依赖于这些“冷门”专家,模型的性能就会出现明显的短板。此前,最先进的剪枝方法是REAP,它通过评估每个专家对模型最终输出的实际贡献度来决定其去留,比单纯依据调用频率的方法更为智能。

第二种是“专家合并”,类似于企业中的“业务整合”——将功能相近的专家的参数进行加权平均,融合成一个新的专家。这种方法的好处是原始知识得以保留,但风险在于:如果合并决策失误,将两个专长领域不同的专家强行融合,可能会产生一个能力平庸的“四不像”,其效果反而可能不如合并之前。

REAP方法的研究曾指出,早期的合并技术存在一个缺陷:合并后,在调整“路由器”(负责分配任务给专家的组件)的权重时会引入误差。基于此,REAP团队得出了“剪枝优于合并”的结论。但REAM的研究者认为,这个结论有失偏颇——问题不在于合并思路本身,而在于过去的合并方法过于粗糙。如果能将合并过程做得足够精细,完全可以在保留知识的同时,有效控制性能损失。REAM正是基于这一理念而设计的。

三、REAM的四把手术刀:一套精细化的合并方案

REAM并非一个单一的技巧,而是一个由四个精密组件构成的完整技术体系,每一部分都针对前人方法的不足进行了针对性改进。

第一把手术刀:更智能的“相似度度量”。判断哪些专家应该合并,首先要衡量它们之间的相似度。传统方法要么只关注专家输出结果的接近程度,要么只考虑路由器调度分数的相似性。REAM将这两个维度综合起来,并引入了一个关键权重:路由器对每个专家的“置信度”。如果一个专家在处理某类任务时被路由器高度信赖(给予高分),那么它在这类任务上的输出就应该在相似度计算中占据更大权重。这就好比评估两位员工:不仅要看他们完成的工作内容是否相似,更要考虑他们在各自被委派任务中的重要性和场景。

第二把手术刀:“伪剪枝”分组策略。这是REAM的核心创新。传统的合并方法通常将所有专家均匀分组,然后强制每组融合成一个代表。REAM的做法截然不同:首先,根据重要性评分筛选出最重要的专家作为“组长”,组长的数量等于压缩后希望保留的专家总数。然后,从最重要的组长开始,依次吸纳与其最相似的非组长专家,但每个组长有固定的“吸纳名额”。由于需要被吸纳的普通专家总数远少于所有组长的总容量,结果就是:只有少数几个组长真正吸收了其他成员,而大多数组长保持独立,形成单人小组。这种结构在形式上接近合并,但在效果上却类似于剪枝——重要的专家基本保持原样,同时又将冗余专家的知识吸收进来,而非简单丢弃。

第三把手术刀:“双轨对齐”权重校准。合并专家参数时,不能简单地进行加权平均,因为两个专家内部的神经元排列顺序可能不同。这就像两份乐谱记录着同一首曲子,但音符的排列顺序各异,直接叠加只会产生噪音。正确的做法是先找到正确的对应关系,即“排列对齐”。REAM的创新在于结合了两种信息进行匹配:既看神经元权重参数的相似性,也看神经元在实际数据上的激活模式是否相似。仅依赖权重可能忽略模型运行时的动态行为;仅依赖激活又可能受单批数据巧合的影响。两者结合,才能做出最可靠的配对决策。

第四把手术刀:“顺序合并”流程。常规方法会先收集模型所有层的统计信息,然后一次性压缩所有层。但这存在一个问题:当第一层被压缩后,其输出数据已经改变,这意味着基于原始模型收集的第二层统计信息已经“过时”。REAM采用“逐层推进”的策略:压缩完一层后,立即用更新后的该层重新计算输出,再将这份新数据作为下一层的输入。这好比翻修一栋大楼,不是一次性画好所有楼层的施工图,而是修完一层,根据实际效果再调整下一层的方案。这个过程虽然增加了约50%的时间成本(例如从1小时增至1.5小时),但换来了更精准的压缩质量。考虑到模型压缩通常只需执行一次,研究团队认为这笔“时间投资”非常值得。

四、校准数据:一个被忽视却至关重要的变量

REAM的整个压缩流程是“数据驱动”的,需要一批“校准数据”来观察模型行为,以评估专家重要性和相似度。这里潜藏着一个关键风险:如果校准数据中缺乏某一领域的内容(例如编程代码),那么该领域的相关专家可能因从未被激活而被误判为“不重要”,从而在压缩过程中被错误地合并或舍弃。等到用户真正需要模型执行代码任务时,性能便会大幅下降。

研究团队对此进行了极为细致的探索。他们混合使用了三类数据源作为校准集:C4(通用网页文本)代表日常语言,NuminaMath代表数学推理,The-Stack-Smol代表代码生成。通过设计十种不同的混合比例,他们全面测试了校准数据组成对最终压缩效果的影响。

评估从两个维度展开:一类是“判断题”式的多项选择测评,涵盖八个任务,考察模型的通用知识与理解能力;另一类是“问答题”式的生成型测评,涵盖六个任务,考察模型在实际应用场景中的真实能力。

实验结果揭示了一个意料之外却又合乎逻辑的规律:对于REAM、REAP等依赖数据的方法,校准数据中通用文本(C4)的比例越高,模型在选择题测评上的表现就越好,但在生成型测评上的表现却越差,两者呈现强烈的负相关。反之,代码数据比例越高,生成型测评表现越好,选择题测评则越差。数学数据的影响则相对微弱,这表明数学推理能力在模型中是分散存储的,而非集中于少数几个专家。

这个发现意味着:在实际部署中,选择什么样的校准数据,就等于在决定“我希望这个压缩后的模型擅长什么”。这是一把双刃剑——它赋予了用户根据目标定制化压缩模型的能力,但也宣告了不存在一种“万能”的校准配方能在所有任务上都达到最优。

五、关键结论:REAM在大多数情况下优于竞争对手

在将专家数量从128个压缩至96个(压缩率25%)的设定下,当使用最优校准比例(数学:代码=5:5)时,REAM在生成型测评上的平均分达到69.8分,与未压缩原始模型的70.9分相比,差距仅有1.1分。这意味着经过REAM处理后,模型的能力损失微乎其微,完全处于可接受范围内。

与REAP相比,REAM在生成型任务上整体表现更优,尤其在指令遵循和实时代码评测上优势明显。REAP在最优校准比例下的生成型平均分为68.6分,比REAM低了1.2分。另一个合并基准方法HC-SMoE得分为67.4分,频率剪枝方法则为67.6分。

研究团队还引入了“超体积”指标来综合衡量各方法在所有校准比例下的整体表现。REAM的超体积为920.3,高于REAP的878.0和HC-SMoE的853.3,频率剪枝仅为429.7。更重要的是,REAM有7种校准比例达到了帕累托最优(即没有其他比例能在两类测评上都超越它),而HC-SMoE只有2种。这说明REAM的优势具有鲁棒性,在整个校准数据空间中都保持了竞争力。

HC-SMoE的情况则颇为耐人寻味。由于其分组决策几乎不依赖校准数据,因此无论用什么数据,其表现都稳定在一个狭窄的区间内。这种稳定性看似是优点,实则意味着它无法从有针对性的校准数据中获益,用户失去了通过调整数据来优化特定任务性能的灵活性。

在更激进的50%压缩率(从128个专家压缩到64个)设定下,REAM依然保持了最大的超体积(910.7),但此时REAP的超体积(931.4)略高,表明在极端压缩场景下,两者的优劣差距开始缩小。

六、跨模型测试:REAM的泛化能力经受考验

为了验证REAM方法的普适性,研究团队在三个更大规模的模型上重复了实验。

在拥有512个专家、800亿参数的Qwen3-Coder-Next模型上,压缩掉25%的专家后,REAM在生成型测评上的平均分达到72.9分,与原始模型完全持平——这几乎是一次无损压缩。在数学竞赛题上,REAM的得分(80.0分)与原始模型一致,而REAP只有70.0分。在代码生成任务上,REAM和REAP甚至取得了94.5分,略微超过了原始模型的92.7分。这表明,专注于代码领域的校准数据能帮助压缩方法更好地保留相关专家,甚至实现了局部性能的“反超”。

在另外两个大规模模型——800亿参数的Qwen3-Next-80B-A3B-Instruct和1060亿参数的GLM-4.5-Air上,REAM压缩后的性能均一致地超越了REAP。这强烈表明,REAM的优势源于其方法本身更合理的设计,而非对特定模型结构的过拟合。值得注意的是,在所有模型和压缩方法下,博士级科学问答任务都出现了明显的性能下降,这说明这类需要深度专业知识的任务对专家压缩尤为敏感,是未来需要重点攻关的方向。

七、组件分析:哪个部分贡献最大

为了厘清REAM四个组件的各自贡献,研究团队进行了系统的消融实验——每次移除一个组件,观察性能变化。

影响最大的是用于评估专家重要性的“REAP显著性得分”。如果将其替换为简单的调用频率,生成型平均分会骤降8.7分。这再次印证了一个关键洞见:专家被调用的次数多寡并不等同于其重要性,真正的贡献取决于每次被调用时其输出对最终结果的实际影响力。

第二大影响来自相似度计算中的路由器置信度加权。移除这个权重后,生成型平均分下降5.9分。这验证了一个直觉:两个专家即使在某些输出上相似,但如果路由器对它们的信任程度(置信度)差异巨大,意味着它们承担的任务范围和核心程度可能截然不同,强行合并代价高昂。

伪剪枝分组策略的移除会导致整体性能平均下降3.6分,证明了其分组方式对合并质量有实质性影响。相比之下,顺序合并流程的影响约为1.0分,双轨对齐中权重轨道的贡献约为0.5分。虽然后者影响较小,但研究团队认为它对于方法的稳定性仍有意义。如果将所有组件全部移除,REAM便退化为最简单的MC-SMoE合并方法。

研究团队还进行了一项有趣的“排名分析”:他们测量了压缩后模型内部特征向量的数学秩(可理解为信息丰富度和多样性),并发现该指标与最终测评分数高度相关。对于REAM,其相关系数高达0.95,是所有方法中最高的。这意味着,未来若要快速预测哪种校准数据组合能产生最佳压缩效果,或许只需计算压缩后模型的这个“秩”指标即可,无需运行耗时的完整测评,这为快速筛选方案提供了一条捷径。

总结与启示

归根结底,这项研究回答的核心问题并非“删除与合并孰优孰劣”,而是“如何将合并做到足够精细,使其真正超越删除”。REAM给出的答案是:必须同时考虑路由器的调度逻辑和专家的实际输出;必须采用伪剪枝而非均等分组来决定合并关系;必须在参数对齐时参考权重和激活两个维度;还必须在逐层压缩时实时更新数据流。当这四件事都做对时,合并产生的精简模型就有可能在大多数任务上追平甚至接近原始完整模型。

另一个至关重要的发现值得牢记:模型在选择题测评上的表现与其在生成题测评上的表现,存在根本性的此消彼长关系。没有任何一种校准数据能同时将两类性能推向顶峰。这意味着,在实际部署压缩模型前,必须首先明确模型的主要用途,然后据此选择对应的校准数据类型,而不是奢望找到一个“放之四海而皆准”的压缩配方。

Q&A

Q1:REAM和REAP有什么本质区别,为什么REAM在生成型任务上更强?

A:REAP是直接删除评分低的专家,其承载的知识随之消失;REAM则是将评分低的专家合并到最相似的重要专家中,知识得以保留。这使得REAM在处理如代码生成、数学解题等生成型任务时更具优势,因为这些任务往往依赖于一些不常被调用、但在特定场景下至关重要的“专家”。在Qwen3系列模型的25%压缩测试中,REAM的生成型平均分比REAP高出约1至2分。

Q2:校准数据的选择对MoE模型压缩效果影响有多大?

A:影响极为显著。以Qwen3-30B模型为例,使用不含代码的校准集压缩后,其在代码生成评测上的得分可能接近零;而换用代码比例较高的校准集后,同样的方法可使得分恢复到90分以上,前后差距超过40分。通用文本数据有利于选择题测评,代码数据则有利于生成型测评,两者之间存在根本性的权衡关系,无法同时最大化。

Q3:REAM的伪剪枝分组和普通合并分组有什么不同?

A:普通合并分组通常将所有专家均等地分成若干小组,强制每组合并成一个新专家。REAM的伪剪枝策略则先根据重要性筛选出目标数量的“组长”,然后允许每个组长吸纳有限数量的、最相似的“组员”。由于需要被吸纳的专家总数远少于组长们的总吸纳容量,结果是大多数组长保持独立,只有少数组长真正吸收了其他专家。这使得最终结构更接近剪枝的效果——重要专家基本保持不变,同时又整合了被压缩专家的知识,而非简单丢弃。

来源:https://www.techwalker.com/2026/0416/3184196.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

三星与米拉研究院专家合并技术实现AI模型高效瘦身不损性能
AI
三星与米拉研究院专家合并技术实现AI模型高效瘦身不损性能

这项研究由三星人工智能蒙特利尔实验室、米拉魁北克人工智能研究院、蒙特利尔理工学院、蒙特利尔大学、麦吉尔大学及三星韩国人工智能中心联合完成,并于2026年4月在预印本平台arXiv上发布,论文编号为arXiv:2604 04356v1。 当前AI部署面临一个核心挑战:随着顶级大语言模型的参数规模膨胀至

热心网友
05.15
东北大学研究揭示AI大模型先做决定后推理的决策机制
AI
东北大学研究揭示AI大模型先做决定后推理的决策机制

这项由东北大学Khoury计算机科学学院与ServiceNow研究院、Mila实验室合作完成的研究,为我们理解大语言模型的“思考”方式,投下了一颗震撼弹。论文发表于2026年4月,编号为arXiv:2604 01202v2,其核心发现挑战了我们对AI推理过程的传统认知。 向ChatGPT或Claud

热心网友
05.14
微软AI内存优化新突破:模型更聪明却无需额外内存消耗
AI
微软AI内存优化新突破:模型更聪明却无需额外内存消耗

这项由微软研究院与清华大学联合发布的突破性研究成果,于2026年4月正式公开,论文编号为arXiv:2604 01220v1。它针对当前人工智能发展中的一个核心挑战——如何在提升模型能力的同时控制资源消耗——提出了一个极具创新性的解决方案。 如今,手机AI助手已融入日常生活,但你是否想过:能否让AI

热心网友
05.14
清华大学IndexCache技术提升AI大模型长文本处理速度80%
AI
清华大学IndexCache技术提升AI大模型长文本处理速度80%

在人工智能技术快速迭代的当下,大型语言模型的功能日益强大,但一个普遍存在的挑战也浮出水面:面对超长文本输入时,模型的处理速度会大幅降低,运算成本急剧增加。这一问题的根源,在于模型核心的“注意力机制”计算复杂度。 我们可以将注意力机制比作一位极其细致的图书管理员。每当接收到一个新词或新句子,这位管理员

热心网友
05.14
新南威尔士大学研究AI大模型持续学习新知识并保留旧技能
AI
新南威尔士大学研究AI大模型持续学习新知识并保留旧技能

这项由新南威尔士大学研究团队主导的创新性研究于2025年正式发表,论文预印本编号为arXiv:2603 27481v1。该研究聚焦于解决大型视觉语言模型在持续学习中的一个核心瓶颈——如何高效学习新任务而不遗忘旧知识。对技术细节感兴趣的读者可通过该编号查阅完整论文。 设想你拥有一位全能型AI助手,它既

热心网友
05.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

领克GT概念跑车北京车展首发 百公里加速仅2秒
科技数码
领克GT概念跑车北京车展首发 百公里加速仅2秒

领克首款GT概念跑车亮相北京车展,由中欧团队联合打造。新车采用经典GT比例与低趴宽体设计,配备液态金属蓝涂装与2+2座舱,设有高性能模式按键可激活空气动力学套件。车辆采用后驱布局与AI智能运动控制系统,百公里加速约2秒,设计融合瑞典极简美学并参考全球用户反馈。

热心网友
05.14
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升
科技数码
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升

英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。

热心网友
05.14
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售
科技数码
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售

微星将于5月15日推出两款26 5英寸雾面WOLED显示器MAG276QRY28和276QRDY54,售价分别为2499元和6299元。均采用第四代WOLED面板,具备QHD分辨率、VESADisplayHDRTrueBlack500认证、1500尼特峰值亮度及99 5%DCI-P3色域覆盖。276QRY28刷新率为280Hz,高阶款276QRDY54支持4

热心网友
05.14
中芯国际一季度净利润13.61亿元 同比增长0.4%
科技数码
中芯国际一季度净利润13.61亿元 同比增长0.4%

中芯国际2026年第一季度营收176 17亿元,同比增长8 1%;净利润13 61亿元,同比增长0 4%。公司预计第二季度收入环比增长14%至16%,毛利率指引上调至20%至22%。这反映出公司在行业复苏中展现出财务韧性,并通过运营优化增强了短期增长势头。

热心网友
05.14
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升
AI
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升

手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭

热心网友
05.14