三星与米拉研究院专家合并技术实现AI模型高效瘦身不损性能

首页

热心网友

转载

2026-05-15

这项研究由三星人工智能蒙特利尔实验室、米拉魁北克人工智能研究院、蒙特利尔理工学院、蒙特利尔大学、麦吉尔大学及三星韩国人工智能中心联合完成，并于2026年4月在预印本平台arXiv上发布，论文编号为arXiv:2604.04356v1。

三星AI蒙特利尔实验室与米拉研究院联手：让AI大模型

当前AI部署面临一个核心挑战：随着顶级大语言模型的参数规模膨胀至数千亿级别，将其实际部署到产品中变得极其昂贵。问题的关键并非运算速度，而是模型庞大的“体积”——仅将其加载到内存中，就足以让大多数硬件设备难以承受。为了解决这一根本性的“内存瓶颈”，研究团队提出了一种名为REAM（路由器加权专家激活合并）的创新方法。其核心思想可以用一个生动的比喻来理解：当一家公司需要精简架构时，是选择直接解雇部分员工，还是将职责相近的员工合并成一个综合岗位？REAM方法坚定地选择了后者。整个研究都围绕着“合并而非删除”这一核心理念展开。

一、为什么大模型会有这么多“专家”，他们又为何会变成负担

要理解这项研究，首先需要了解“专家混合”（Mixture-of-Experts， MoE）模型架构。与普通大模型让所有计算单元全程参与不同，MoE模型内部包含大量被称为“专家”的子网络。在处理每个输入时，模型仅激活其中一小部分相关专家，其余则处于休眠状态。这就像一家大型综合医院，病人只需根据病症挂对应科室的号，无需全院所有医生同时会诊。这种设计旨在以较低的实际计算成本，通过海量专家储备来积累广泛的知识。

然而，矛盾也随之产生。以先进的Qwen3模型为例，其每一层可能包含128个专家，但每次前向传播仅激活其中的8个。这意味着，尽管大部分专家处于“待机”状态，但所有128个专家的参数都必须完整地驻留在内存中。对于参数规模达数百亿甚至上千亿的顶级模型而言，这种内存开销使得许多实际应用场景变得不可行。

进一步的研究揭示，这些数量庞大的专家并非全部高效。许多专家的功能存在高度重叠，造成了显著的冗余，就像医院里设置了过多诊疗范围相似的科室。这一发现为模型“瘦身”提供了关键突破口：如果能精准识别出那些执行重复工作的专家，就有可能安全地将它们合并或精简，同时最大限度地保留模型的整体能力。

二、“删除”还是“合并”：两种模型压缩思路的利弊

在REAM方法出现之前，压缩MoE模型主要有两种技术路径，恰如企业架构调整的两种策略。

第一种是“专家剪枝”，这相当于直接“裁员”——将模型中认为不重要的专家彻底删除。这种方法简单直接，但其代价是被删除专家所承载的特定知识会永久丢失。如果某些任务恰好依赖于这些“冷门”专家，模型的性能就会出现明显的短板。此前，最先进的剪枝方法是REAP，它通过评估每个专家对模型最终输出的实际贡献度来决定其去留，比单纯依据调用频率的方法更为智能。

第二种是“专家合并”，类似于企业中的“业务整合”——将功能相近的专家的参数进行加权平均，融合成一个新的专家。这种方法的好处是原始知识得以保留，但风险在于：如果合并决策失误，将两个专长领域不同的专家强行融合，可能会产生一个能力平庸的“四不像”，其效果反而可能不如合并之前。

REAP方法的研究曾指出，早期的合并技术存在一个缺陷：合并后，在调整“路由器”（负责分配任务给专家的组件）的权重时会引入误差。基于此，REAP团队得出了“剪枝优于合并”的结论。但REAM的研究者认为，这个结论有失偏颇——问题不在于合并思路本身，而在于过去的合并方法过于粗糙。如果能将合并过程做得足够精细，完全可以在保留知识的同时，有效控制性能损失。REAM正是基于这一理念而设计的。

三、REAM的四把手术刀：一套精细化的合并方案

REAM并非一个单一的技巧，而是一个由四个精密组件构成的完整技术体系，每一部分都针对前人方法的不足进行了针对性改进。

第一把手术刀：更智能的“相似度度量”。判断哪些专家应该合并，首先要衡量它们之间的相似度。传统方法要么只关注专家输出结果的接近程度，要么只考虑路由器调度分数的相似性。REAM将这两个维度综合起来，并引入了一个关键权重：路由器对每个专家的“置信度”。如果一个专家在处理某类任务时被路由器高度信赖（给予高分），那么它在这类任务上的输出就应该在相似度计算中占据更大权重。这就好比评估两位员工：不仅要看他们完成的工作内容是否相似，更要考虑他们在各自被委派任务中的重要性和场景。

第二把手术刀：“伪剪枝”分组策略。这是REAM的核心创新。传统的合并方法通常将所有专家均匀分组，然后强制每组融合成一个代表。REAM的做法截然不同：首先，根据重要性评分筛选出最重要的专家作为“组长”，组长的数量等于压缩后希望保留的专家总数。然后，从最重要的组长开始，依次吸纳与其最相似的非组长专家，但每个组长有固定的“吸纳名额”。由于需要被吸纳的普通专家总数远少于所有组长的总容量，结果就是：只有少数几个组长真正吸收了其他成员，而大多数组长保持独立，形成单人小组。这种结构在形式上接近合并，但在效果上却类似于剪枝——重要的专家基本保持原样，同时又将冗余专家的知识吸收进来，而非简单丢弃。

第三把手术刀：“双轨对齐”权重校准。合并专家参数时，不能简单地进行加权平均，因为两个专家内部的神经元排列顺序可能不同。这就像两份乐谱记录着同一首曲子，但音符的排列顺序各异，直接叠加只会产生噪音。正确的做法是先找到正确的对应关系，即“排列对齐”。REAM的创新在于结合了两种信息进行匹配：既看神经元权重参数的相似性，也看神经元在实际数据上的激活模式是否相似。仅依赖权重可能忽略模型运行时的动态行为；仅依赖激活又可能受单批数据巧合的影响。两者结合，才能做出最可靠的配对决策。

第四把手术刀：“顺序合并”流程。常规方法会先收集模型所有层的统计信息，然后一次性压缩所有层。但这存在一个问题：当第一层被压缩后，其输出数据已经改变，这意味着基于原始模型收集的第二层统计信息已经“过时”。REAM采用“逐层推进”的策略：压缩完一层后，立即用更新后的该层重新计算输出，再将这份新数据作为下一层的输入。这好比翻修一栋大楼，不是一次性画好所有楼层的施工图，而是修完一层，根据实际效果再调整下一层的方案。这个过程虽然增加了约50%的时间成本（例如从1小时增至1.5小时），但换来了更精准的压缩质量。考虑到模型压缩通常只需执行一次，研究团队认为这笔“时间投资”非常值得。

四、校准数据：一个被忽视却至关重要的变量

REAM的整个压缩流程是“数据驱动”的，需要一批“校准数据”来观察模型行为，以评估专家重要性和相似度。这里潜藏着一个关键风险：如果校准数据中缺乏某一领域的内容（例如编程代码），那么该领域的相关专家可能因从未被激活而被误判为“不重要”，从而在压缩过程中被错误地合并或舍弃。等到用户真正需要模型执行代码任务时，性能便会大幅下降。

研究团队对此进行了极为细致的探索。他们混合使用了三类数据源作为校准集：C4（通用网页文本）代表日常语言，NuminaMath代表数学推理，The-Stack-Smol代表代码生成。通过设计十种不同的混合比例，他们全面测试了校准数据组成对最终压缩效果的影响。

评估从两个维度展开：一类是“判断题”式的多项选择测评，涵盖八个任务，考察模型的通用知识与理解能力；另一类是“问答题”式的生成型测评，涵盖六个任务，考察模型在实际应用场景中的真实能力。

实验结果揭示了一个意料之外却又合乎逻辑的规律：对于REAM、REAP等依赖数据的方法，校准数据中通用文本（C4）的比例越高，模型在选择题测评上的表现就越好，但在生成型测评上的表现却越差，两者呈现强烈的负相关。反之，代码数据比例越高，生成型测评表现越好，选择题测评则越差。数学数据的影响则相对微弱，这表明数学推理能力在模型中是分散存储的，而非集中于少数几个专家。

这个发现意味着：在实际部署中，选择什么样的校准数据，就等于在决定“我希望这个压缩后的模型擅长什么”。这是一把双刃剑——它赋予了用户根据目标定制化压缩模型的能力，但也宣告了不存在一种“万能”的校准配方能在所有任务上都达到最优。

五、关键结论：REAM在大多数情况下优于竞争对手

在将专家数量从128个压缩至96个（压缩率25%）的设定下，当使用最优校准比例（数学:代码=5:5）时，REAM在生成型测评上的平均分达到69.8分，与未压缩原始模型的70.9分相比，差距仅有1.1分。这意味着经过REAM处理后，模型的能力损失微乎其微，完全处于可接受范围内。

与REAP相比，REAM在生成型任务上整体表现更优，尤其在指令遵循和实时代码评测上优势明显。REAP在最优校准比例下的生成型平均分为68.6分，比REAM低了1.2分。另一个合并基准方法HC-SMoE得分为67.4分，频率剪枝方法则为67.6分。

研究团队还引入了“超体积”指标来综合衡量各方法在所有校准比例下的整体表现。REAM的超体积为920.3，高于REAP的878.0和HC-SMoE的853.3，频率剪枝仅为429.7。更重要的是，REAM有7种校准比例达到了帕累托最优（即没有其他比例能在两类测评上都超越它），而HC-SMoE只有2种。这说明REAM的优势具有鲁棒性，在整个校准数据空间中都保持了竞争力。

HC-SMoE的情况则颇为耐人寻味。由于其分组决策几乎不依赖校准数据，因此无论用什么数据，其表现都稳定在一个狭窄的区间内。这种稳定性看似是优点，实则意味着它无法从有针对性的校准数据中获益，用户失去了通过调整数据来优化特定任务性能的灵活性。

在更激进的50%压缩率（从128个专家压缩到64个）设定下，REAM依然保持了最大的超体积（910.7），但此时REAP的超体积（931.4）略高，表明在极端压缩场景下，两者的优劣差距开始缩小。

六、跨模型测试：REAM的泛化能力经受考验

为了验证REAM方法的普适性，研究团队在三个更大规模的模型上重复了实验。

在拥有512个专家、800亿参数的Qwen3-Coder-Next模型上，压缩掉25%的专家后，REAM在生成型测评上的平均分达到72.9分，与原始模型完全持平——这几乎是一次无损压缩。在数学竞赛题上，REAM的得分（80.0分）与原始模型一致，而REAP只有70.0分。在代码生成任务上，REAM和REAP甚至取得了94.5分，略微超过了原始模型的92.7分。这表明，专注于代码领域的校准数据能帮助压缩方法更好地保留相关专家，甚至实现了局部性能的“反超”。

在另外两个大规模模型——800亿参数的Qwen3-Next-80B-A3B-Instruct和1060亿参数的GLM-4.5-Air上，REAM压缩后的性能均一致地超越了REAP。这强烈表明，REAM的优势源于其方法本身更合理的设计，而非对特定模型结构的过拟合。值得注意的是，在所有模型和压缩方法下，博士级科学问答任务都出现了明显的性能下降，这说明这类需要深度专业知识的任务对专家压缩尤为敏感，是未来需要重点攻关的方向。

七、组件分析：哪个部分贡献最大

为了厘清REAM四个组件的各自贡献，研究团队进行了系统的消融实验——每次移除一个组件，观察性能变化。

影响最大的是用于评估专家重要性的“REAP显著性得分”。如果将其替换为简单的调用频率，生成型平均分会骤降8.7分。这再次印证了一个关键洞见：专家被调用的次数多寡并不等同于其重要性，真正的贡献取决于每次被调用时其输出对最终结果的实际影响力。

第二大影响来自相似度计算中的路由器置信度加权。移除这个权重后，生成型平均分下降5.9分。这验证了一个直觉：两个专家即使在某些输出上相似，但如果路由器对它们的信任程度（置信度）差异巨大，意味着它们承担的任务范围和核心程度可能截然不同，强行合并代价高昂。

伪剪枝分组策略的移除会导致整体性能平均下降3.6分，证明了其分组方式对合并质量有实质性影响。相比之下，顺序合并流程的影响约为1.0分，双轨对齐中权重轨道的贡献约为0.5分。虽然后者影响较小，但研究团队认为它对于方法的稳定性仍有意义。如果将所有组件全部移除，REAM便退化为最简单的MC-SMoE合并方法。

研究团队还进行了一项有趣的“排名分析”：他们测量了压缩后模型内部特征向量的数学秩（可理解为信息丰富度和多样性），并发现该指标与最终测评分数高度相关。对于REAM，其相关系数高达0.95，是所有方法中最高的。这意味着，未来若要快速预测哪种校准数据组合能产生最佳压缩效果，或许只需计算压缩后模型的这个“秩”指标即可，无需运行耗时的完整测评，这为快速筛选方案提供了一条捷径。

总结与启示

归根结底，这项研究回答的核心问题并非“删除与合并孰优孰劣”，而是“如何将合并做到足够精细，使其真正超越删除”。REAM给出的答案是：必须同时考虑路由器的调度逻辑和专家的实际输出；必须采用伪剪枝而非均等分组来决定合并关系；必须在参数对齐时参考权重和激活两个维度；还必须在逐层压缩时实时更新数据流。当这四件事都做对时，合并产生的精简模型就有可能在大多数任务上追平甚至接近原始完整模型。

另一个至关重要的发现值得牢记：模型在选择题测评上的表现与其在生成题测评上的表现，存在根本性的此消彼长关系。没有任何一种校准数据能同时将两类性能推向顶峰。这意味着，在实际部署压缩模型前，必须首先明确模型的主要用途，然后据此选择对应的校准数据类型，而不是奢望找到一个“放之四海而皆准”的压缩配方。

Q&A

Q1：REAM和REAP有什么本质区别，为什么REAM在生成型任务上更强？

A：REAP是直接删除评分低的专家，其承载的知识随之消失；REAM则是将评分低的专家合并到最相似的重要专家中，知识得以保留。这使得REAM在处理如代码生成、数学解题等生成型任务时更具优势，因为这些任务往往依赖于一些不常被调用、但在特定场景下至关重要的“专家”。在Qwen3系列模型的25%压缩测试中，REAM的生成型平均分比REAP高出约1至2分。

Q2：校准数据的选择对MoE模型压缩效果影响有多大？

A：影响极为显著。以Qwen3-30B模型为例，使用不含代码的校准集压缩后，其在代码生成评测上的得分可能接近零；而换用代码比例较高的校准集后，同样的方法可使得分恢复到90分以上，前后差距超过40分。通用文本数据有利于选择题测评，代码数据则有利于生成型测评，两者之间存在根本性的权衡关系，无法同时最大化。

Q3：REAM的伪剪枝分组和普通合并分组有什么不同？

A：普通合并分组通常将所有专家均等地分成若干小组，强制每组合并成一个新专家。REAM的伪剪枝策略则先根据重要性筛选出目标数量的“组长”，然后允许每个组长吸纳有限数量的、最相似的“组员”。由于需要被吸纳的专家总数远少于组长们的总吸纳容量，结果是大多数组长保持独立，只有少数组长真正吸收了其他专家。这使得最终结构更接近剪枝的效果——重要专家基本保持不变，同时又整合了被压缩专家的知识，而非简单丢弃。

来源:https://www.techwalker.com/2026/0416/3184196.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：Canva海报设计教程打造高点击率视觉营销素材下一篇：北京大学研究揭示AI过度思考导致行为失真原因