首页 游戏 软件 资讯 排行榜 专题
首页
AI
MoE推理的正确玩法:跳过88%专家保住97%性能 | CVPR 2026

MoE推理的正确玩法:跳过88%专家保住97%性能 | CVPR 2026

热心网友
38
转载
2026-03-05


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新智元报道

编辑:LRST

【新智元导读】CVPR新研究MoDES让多模态大模型推理效率飙升:无需训练,智能跳过88%冗余专家,仍保留97%性能,彻底打破「跳得多必掉点」旧认知,推理速度提升2倍。

多模态大模型正在迅速走向大规模。为了处理更高分辨率图像、更长视频序列以及更复杂跨模态任务,模型参数规模持续增长。

Mixture-of-Experts(MoE)架构成为主流选择:通过只激活部分专家网络,试图在保持模型规模的同时降低计算开销。

但问题在于——即便采用 MoE,多模态模型的推理成本依然很高。

每个token仍需与多个专家交互,大量计算发生在「并非真正关键」的专家上。MoE 的确避免了「全参数全激活」,却没有真正做到「按需计算」。

在视频理解或长上下文场景下,这种冗余会被迅速放大,成为推理瓶颈。

于是,一个自然问题出现:能否在推理阶段动态跳过冗余专家?

已有expert skipping方法在纯文本LLM上取得了一定效果,但一旦直接应用于多模态模型,往往出现明显性能下降。跳得越多,掉点越严重,高比例skipping下甚至直接崩溃。

来自香港科技大学、北航、北大等单位的研究团队提出了MoDES(Multimodal Dynamic Expert Skipping),系统分析了多模态MoE skipping失效的根本原因,并给出了一套面向多模态MoE的training-free动态专家跳过框架,该工作已被CVPR接收。


论文地址:https://arxiv.org/pdf/2511.15690

代码地址:https://github.com/ModelTC/MoDES

在Qwen3-VL-MoE-30B上,MoDES在跳过88%专家的情况下,仍保留97.33%原始性能,同时带来显著推理加速,打破了一个长期存在的共识:高比例专家跳过必然带来不可接受的性能损失。


图表1 不同skipping比例下MoDES与现有方法在13个基准上的性能对比

MoDES并没有直接提出新规则,而是首先回答一个更基础的问题:为什么为文本模型设计的skipping方法,在多模态MoE上会明显失效?

论文给出了两个关键观察。

不同层专家对最终输出的全局贡献高度不均衡:现有skipping方法通常仅依据当前层的routing概率判断专家是否重要,但忽略了一个关键事实:不同层专家对最终预测分布的影响差异巨大。

实验表明,当减少routed experts数量时,浅层专家的减少会导致更显著的性能下降,而深层专家的影响相对较小。这意味着浅层误差会在后续层逐步放大,从而引发性能崩溃。

换言之,专家的重要性不仅是「局部routing概率」的问题,更是「对最终输出影响程度」的问题。如果采用层无关的统一规则,很容易在关键浅层跳得过多。相关现象如图表2所示。


图表2 不同层范围减少专家后的性能变化

文本token与视觉token行为存在显著差异:论文进一步分析了模态差异。通过对FFN前后token表征的可视化与统计分析,研究者发现:文本token在FFN中的更新幅度明显更大;视觉token与专家权重更接近正交;专家对视觉token的影响相对较小。

这意味着,专家对文本推理更关键,而对视觉token存在更高冗余。如果skipping策略不区分模态,很可能误删对文本理解至关重要的专家,导致性能下降。相关分析见图表3。


图表3 文本与视觉token在FFN中的差异分析

这两个观察共同指向一个核心结论:多模态MoE的专家重要性,需要同时具备output-aware(输出感知) 与modality-aware(模态感知)。

输出感知+模态感知

动态skipping框架

基于上述insight,MoDES构建了一个输出感知、模态感知的动态专家跳过机制,其整体流程如图表4所示。


图表 4 MoDES框架图

首先,MoDES在原始routing概率基础上引入层级全局重要性因子,用于刻画第

l
层专家对最终输出分布的整体影响。

该因子通过离线校准获得,即比较移除该层专家前后模型输出分布的差异,从而量化该层专家的全局贡献。新的专家重要性分数由局部routing概率与全局因子共同决定。这样一来,浅层专家会被更保守地保留,而深层专家可以更激进地跳过,实现真正的output-aware skipping。

其次,MoDES引入双模态阈值机制,为文本token与视觉token分别设定不同的skipping阈值。通过模态区分,使专家跳过决策更加精细化,避免误删关键专家。

最后,为高效寻找最优阈值组合,MoDES设计了frontier search算法,利用性能与 skipping比例之间的单调性,将搜索复杂度从降为,在保证结果一致性的同时将搜索时间缩短约45倍。


图表5 校准与搜索时间对比

实验结果

在主实验中,QVGen在W4A4/W3A3在大规模实验中,MoDES在多个主流多模态MoE模型上进行了系统评估。

在Kimi-VL-A3B-Instruct上,当跳过83%专家时,多数现有expert skipping方法平均性能下降超过11%,而MoDES仍然保留96.25%原始性能(见图表 6)。这一结果说明,高比例skipping并不必然导致性能崩溃,只要专家的重要性建模足够准确,冗余专家可以被有效识别。

在更大规模的Qwen3-VL-MoE-30B-A3B-Instruct上,MoDES的优势更加明显。在跳过88%专家的条件下,MC-MoE仅保留86.66%性能,DiEP保留85.30%,而MoDES仍然能够保留97.33%原始性能(见图表 7)。在13个图像与视频理解基准上,MoDES均取得最优或接近最优表现。


图表6 Kimi-VL不同skipping比例性能对比


图表7 跨backbone性能对比

这一结果表明,高比例skipping并非不可行,关键在于是否能够正确建模专家对最终输出的全局贡献以及不同模态token的行为差异。

推理效率与量化兼容性

在实际推理测试中,MoDES在H200 GPU上实现了显著加速。在Prefill阶段获得约2×加速,在Decoding阶段仍有约1.2×提升(见图表 8)。由于MoDES为training-free方法,推理阶段不引入额外计算开销,因此加速效果更加稳定。

此外,MoDES与混合精度量化具有良好兼容性。在低比特量化条件下仍能保持较高性能,说明skipping与量化可以从结构与数值两个层面形成互补,共同降低多模态MoE的计算成本。


图表8 推理速度对比。(上)Qwen3-VL;(下)Kimi-VL。

总结

MoDES的核心贡献在于:提出了一种真正output-aware、modality-aware的多模态专家跳过机制。

通过显式建模不同层专家对最终输出分布的全局贡献,以及不同模态token在专家网络中的更新特性,MoDES证明了一件重要的事情:即便跳过80%以上的专家,只要跳得足够「聪明」,模型性能依然可以稳定保持。

在多模态模型规模持续扩大的背景下,这种基于输出影响建模的skipping思路,为大模型推理效率优化提供了一条更加稳健且可落地的路径。

参考资料:

https://arxiv.org/pdf/2511.15690

来源:https://www.163.com/dy/article/KN934H9P0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

DeepSeek挑战Transformer记忆?查表法重塑模型架构新思路
AI
DeepSeek挑战Transformer记忆?查表法重塑模型架构新思路

新智元报道编辑:LRST【新智元导读】ICLR论文STEM架构率先提出「查表式记忆」架构,早于DeepSeek Engram三个月。它将Transformer的FFN从动态计算改为静态查表,用tok

热心网友
03.30
阿伯丁研究团队破解AI时间推理,突破双重密码难题
科技数码
阿伯丁研究团队破解AI时间推理,突破双重密码难题

这项由阿伯丁大学和格勒诺布尔阿尔卑斯大学联合开展的研究发表于2025年,相关论文编号为arXiv:2603 19017v1。当我们使用ChatGPT或其他AI助手处理时间相关问题时,比如 "2024年

热心网友
03.30
清华大学BEAVER模型:大语言模型智能压缩与加速新方案
科技数码
清华大学BEAVER模型:大语言模型智能压缩与加速新方案

这项由清华大学、青海大学和蚂蚁集团联合进行的研究发表于2026年,有兴趣深入了解的读者可以通过论文编号arXiv:2603 19635v1查询完整论文。随着人工智能技术的飞速发展,我们的聊天机器人和

热心网友
03.30
UCL新突破:AI学会像人类一样主动培养技能与成长
科技数码
UCL新突破:AI学会像人类一样主动培养技能与成长

来自伦敦大学学院(University College London)的研究团队在2026年3月发表了一项突破性研究,该研究于arXiv平台发布,编号为arXiv:2603 18743v1,专门探讨

热心网友
03.30
Anthropic联合创始人:AI两年内将实现自我繁殖,如细胞般进化
AI
Anthropic联合创始人:AI两年内将实现自我繁殖,如细胞般进化

新智元报道编辑:倾倾【新智元导读】AI自主训练的成绩单出炉了!最强Agent 6个月进步3倍,更让人震惊的是,越聪明的AI越会作弊。同时,70多个矿工用家庭宽带训出了72B大模型,黄仁勋亲自点名。J

热心网友
03.30

最新APP

凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26

热门推荐

vivo Pad6 Pro发布:首款4K原彩屏配骁龙8,售4499元起
网络安全
vivo Pad6 Pro发布:首款4K原彩屏配骁龙8,售4499元起

3月30日消息,今晚除了手机之外,vivo还发布了全新的旗舰平板——vivo Pad6 Pro。行业首发13 2英寸4K原彩屏,分辨率3840×2160,347PPI,支持1-144Hz LTPS自

热心网友
03.30
WPS表格提取括号内容:3步掌握MID函数实战用法
电脑教程
WPS表格提取括号内容:3步掌握MID函数实战用法

WPS表格中提取括号内容有四种方法:一、单对英文小括号用FIND+MID;二、中英文括号通用需SUBSTITUTE预处理;三、多对括号取最后一对需REVERSESTRING反向查找

热心网友
03.30
聚焦AI文创与跨境,“数智苏豪”新街口OPC社区启幕
科技数码
聚焦AI文创与跨境,“数智苏豪”新街口OPC社区启幕

3月30日,南京新街口核心商圈,苏豪大厦一楼广场上机器人迎宾起舞,充满科技感。由苏豪资产运营集团与南京新街口金融商务区管理委员会(以下简称“新街口管委会”)共同打造的“数智苏豪”新街口OPC社区揭牌

热心网友
03.30
1.9亿年薪背后:又一位车企CEO薪酬为何大幅上涨?
科技数码
1.9亿年薪背后:又一位车企CEO薪酬为何大幅上涨?

电 动 知 家消 息,近日,据外媒报道,据福特汽车日前发布的一份文件,该公司首席执行 官吉姆·法利2025年的总薪酬大幅增长了11%,达到约2752万美元(约1 9亿元人民币),这是其自2020年末

热心网友
03.30
美议员为何急于拉黑中国机器人却暗留后门?
科技数码
美议员为何急于拉黑中国机器人却暗留后门?

白宫里,一台人形机器人缓步走入东厅,与美国“第一夫人”并肩亮相,动作仍带着明显的机械感;仅仅一天后,国会山上,这种“会走路的机器”却被划为潜在安全威胁,写进立法提案。这是上周美国上演的荒诞一幕。两党

热心网友
03.30