首页 游戏 软件 资讯 排行榜 专题
首页
AI
MoE模型高效训练指南用显存换取性能提升的实践策略

MoE模型高效训练指南用显存换取性能提升的实践策略

热心网友
90
转载
2026-05-16

MoE架构会成为大模型发展的主流方向吗?

自业界发现MoE(混合专家)架构能显著提升大模型训练与推理效率以来,这个问题便持续引发广泛探讨。

MoE,全称为Mixture of Experts,中文译为“混合专家系统”。其核心是一种模块化的稀疏激活机制。如何理解这一概念?

当前主流大模型主要分为稠密模型与稀疏模型两类。二者的关键区别在于模型推理时实际参与计算的参数数量。像OpenAI的GPT系列(GPT-1至GPT-3)以及Meta的Llama系列这类参数全部激活的模型,属于稠密模型。而仅激活并使用其中一部分参数的模型,则属于基于MoE架构的稀疏模型,这部分被使用的参数被称为“激活参数”。

从网络结构看,主流大模型多基于Transformer架构,由多个Transformer Block堆叠而成。每个Block通常包含两层:多头自注意力层和前馈神经网络层。MoE的创新之处在于对FFN层进行横向扩展,将其参数细分为多个独立的“组”,每个组即是一个“专家”。

基于此设计,对于特定输入,MoE模型仅需激活少数几个相关专家,让这部分参数工作,实现“稀疏激活”。具体激活哪些专家,则由一个称为“路由器”或“门控网络”的组件根据输入内容动态决定。

去年底,Mistral AI开源的MoE模型Mixtral 8x7B,其性能表现可媲美GPT-3.5和Llama2 70B,但推理计算消耗仅相当于一个130亿参数的稠密模型。这一突破性成果极大地激发了业界对MoE潜力的关注。

这种架构能够在增大模型总参数量的同时,让计算成本远低于同等规模的稠密模型,从而实现高效训练。在Scaling Law(缩放定律)仍被视为大模型核心发展规律的当下,MoE无疑是实现“规模效应”的理想技术路径。

随后,国内外众多AI公司纷纷跟进,推出了各自的MoE架构大模型:

今年1月,MiniMax发布了基于MoE的大语言模型abab6;

2月,昆仑万维正式发布新版MoE大模型“天工2.0”;

3月,马斯克的xAI开源了MoE大模型Grok-1,新晋独角兽阶跃星辰发布了Step-2万亿参数MoE预览版,阿里通义千问团队开源了其首个MoE模型Qwen1.5-MoE-A2.7B;

4月,元象科技发布XVERSE-MoE-A4.2B,面壁智能推出MiniCPM-MoE-8x2B;

5月,DeepSeek AI开源的MoE模型DeepSeek-V2,在多项评测中成为当前性能领先的开源MoE语言模型……

选择MoE路线的厂商日益增多。通过与国内多位深耕MoE技术的专家交流,我们发现,尽管MoE的长期前景尚未有最终定论,但在当前阶段,它无疑是大多数企业在遵循Scaling Law、追求模型规模扩展时,一个近乎必然的技术选择。

1. MoE是算力约束下的“必然产物”

MoE并非全新概念。作为一种统计学模型架构,它早在1997年便被提出。随后,随着机器学习与深度学习的发展,MoE思想被引入神经网络领域。早在2017年,便有研究成功将MoE应用于LSTM模型。

对许多从业者而言,认识到MoE可用于大模型训练,始于去年底Mistral AI的开源。但对于长期研究者来说,那次开源更像是一次成功的工程实践,让业界对MoE的认知从理论探讨走向了效果验证。

实际上,更早的线索出现在去年6月。当时有传言称,OpenAI的GPT-4可能是一个采用8x220B参数的MoE模型。尽管那时国内大模型产业刚起步,相关讨论未深入,但此次传言无疑让更多业内人士开始关注MoE的潜在价值。

阶跃星辰的算法专家透露,当社区传言GPT-4采用MoE架构时,他们并不意外,甚至能依据经验推测其大部分架构细节。

元象XVERSE的技术合伙人轩文烽也表示,他们早在2021年初Google发表Switch Transformers论文时便开始研究MoE,国内阿里研发M6模型时也有持续跟进。“而Mistral AI的开源,让MoE的实际效果变得非常直观。之后在去年12月,我们便开始策划训练自己的MoE大模型。”

诚然,MoE作为一种稀疏激活技术,其最突出的优势在于,能在总参数量不变的情况下,大幅降低实际计算量,从而提升训练与推理效率、降低成本。这正是这项并不“新”的技术,在当前算力紧缺的背景下重新焕发活力的根本原因。

大模型的规模正在指数级增长。Scaling Law表明,模型参数量的增加通常能带来性能提升。但模型的迭代极度依赖强大的算力支撑,而全球范围内的算力紧缺,已是行业共识。

稀疏化技术,包括MoE,为这一难题提供了可行的解决方案——它允许模型拥有更大的参数规模,同时其训练和推理成本又远低于同等规模的稠密模型。

面壁智能的研究员宋晨阳指出,在目前算力,特别是国内算力资源普遍有限的情况下,采用MoE架构是一个必然的趋势和务实的选择。

面壁智能与MoE渊源颇深。早在2021年6月,清华大学刘知远教授团队发布的千亿参数MoE大模型CPM-2,便是国内最早关注该方向的成果之一,而面壁智能的初始团队正是核心参与者。这份技术基因使得面壁智能持续深耕MoE与稀疏化技术的研究。

同样坚信Scaling Law的阶跃星辰,在完成千亿参数模型训练后迈向万亿规模。而要将参数量扩大到万亿级别,MoE正是在模型性能、参数量、训练与推理成本等多个维度权衡下的最佳技术路径。

具体而言,MoE模型的优势主要体现在专家化、动态化和稀疏化三个层面:

一是更强的模型表达能力。MoE融合了多个各有所长的专家子模型,既有分工又有协作,能够动态适应不同输入数据的特性,从而提升模型的整体表征能力。

二是更高效的训练与推理速度。相比于同参数量的稠密模型,MoE采用稀疏激活机制,训练时计算量更小,推理时同时激活的参数量也更少,从而能更高效地利用宝贵的计算资源。

2. 技术路径选择尚未统一

目前,采用MoE架构的厂商日益增多,整体思路相似,但在具体的架构设计细节上,业界远未达成共识。例如,模型总共需要设置多少个专家?每次推理激活多少个?是否需要设置固定的共享专家?如何平衡专家之间的负载?各家都有不同的技术选择。

一般而言,当前的MoE技术路径主要分为两种:基于已有预训练模型进行MoE化改造,或是完全从头开始训练一个MoE模型。

基于已有模型训练,通常采用一种名为“向上复用”的高效方案。具体而言,是将一个已训练好的稠密模型的前馈神经网络参数复制多份,每一份作为一个专家,然后组合成MoE模型。这样能快速得到一个总参数量巨大的模型,而所需的算力投入却小得多。

宋晨阳解释道:“这种方法的最大优势在于节省成本,因为初始模型已经学习了海量的知识。”但弊端也很明显:通过复制得到的多个专家之间可能存在高度的知识重叠,导致参数冗余。如果处理不当,就无法充分发挥MoE架构的潜力,这对工程技术提出了很高要求。

相比之下,从头开始训练虽然难度和成本更高,但能有效缓解上述问题,并且拥有更高的架构设计自由度,有望突破传统MoE的性能瓶颈,触及更高的性能上限。

目前,多数厂商选择了基于已有模型训练的路径,例如Mistral AI的Mixtral系列、通义千问的Qwen1.5-MoE-A2.7B、面壁智能的MiniCPM-MoE-8x2B等。而从公开论文来看,DeepSeek-V2则选择了更具挑战性的从头训练路线,其开源后也引起了业界的巨大反响。

阶跃星辰的做法是双管齐下:一方面坚持完全从头训练万亿参数模型,以充分挖掘MoE的潜力;另一方面在研发前期投入大量精力,从众多候选方案中筛选出更可靠的架构配置。

此外,业界在专家粒度设计上也存在分歧:专家的规模应该粗粒度还是细粒度?是否应该引入固定的共享专家?

以Mistral AI的8x7B为例,这是一个经典架构:包含8个形状完全相同的专家,路由器每次从中选择2个激活。但通义千问和DeepSeek采用了不同的思路,特别是DeepSeek,它将专家粒度切分得更细,并引入了共享专家机制。

这好比将选择范围从传统的8选2(组合数C(8,2)),转变为将每个专家再细分为8份,得到64个更小的专家单元,然后从中选择8个(组合数C(64,8))。可选择的组合数大幅增加,模型的表达能力和灵活性理论上也会显著增强。

宋晨阳认为,这是DeepSeek MoE模型的一大创新点。

轩文烽也透露,在专家设计上,元象XVERSE也没有采用类似Mistral AI的传统做法,而是使用了更细的颗粒度,将每个专家设置为标准FFN大小的1/4。这一选择是基于多次实验验证的结果,同时他们也密切关注着业界在FFN配比上的最新技术方案。

另外,DeepSeek引入的共享专家也颇具巧思。前面提到,基于“向上复用”得到的MoE模型,专家初始化时完全一样,知识重叠难以避免。DeepSeek的策略是将这部分重叠的公共知识,用一个共享专家单独表示。对于每个输入,共享专家被固定激活,不经过路由器选择;剩余的非共享专家,则由路由器动态挑选激活。

基于这些差异,宋晨阳认为,当前市面上的MoE模型大致可分为两个流派:一是类似Mistral AI的传统流派;二是像通义千问和DeepSeek这样,追求更细专家粒度和引入共享专家的创新派架构。

至于哪种架构会成为未来主流,目前并没有定论。因为一个模型的最终性能表现,架构设计并非唯一决定因素。训练数据的质量、清洗方式、配比组织,乃至训练时数据的切分方法等,都至关重要。不同的技术选择,将通向不同的结果。

目前,面壁智能的MiniCPM-MoE-8x2B采用了类似Mistral AI的架构。考虑到其最终目标是将端侧模型做到极致,部署到每一部手机,团队也在持续讨论和实验,以探索更适合移动硬件加速的MoE架构,做出最终的技术路径选择。

3. MoE“终究是一门权衡与妥协的艺术”

随着入局者增多,MoE似乎正成为一种行业趋势。那么,它会是AI未来的终极方向吗?

对此,业界看法不一。支持者认为,它在同等参数规模下能大幅降低算力需求,在Scaling Law依然有效的今天,无疑是实现模型规模扩展的最优解。

但持保留态度者也大有人在。

今年4月底,Meta发布的Llama 3系列,包括8B、70B和仍在训练中的400B+版本。CEO扎克伯格在访谈中明确,Llama 3 400B+将是一个稠密模型。面对如此巨大的参数量,依然选择稠密架构,或许表明Meta对稀疏化技术持谨慎态度,“拒绝”了当前的MoE方案。

事实上,即便是选择了MoE的厂商,也不得不承认,尽管拥有高效训练、灵活性强等优点,MoE的局限性依然明显,它“终究是一门权衡与妥协的艺术”。

宋晨阳指出,MoE的核心优势在于算力有限时,能以更低的计算量达到相近的参数规模。但如果有充足的算力,在同等参数量下分别训练一个MoE模型和一个稠密模型,性能上通常是稠密模型更优。

本质上,FFN的表达能力是近乎无限的,但MoE为了稀疏激活,强制规定只能激活被切分后的一部分FFN,这相当于缩小了模型整体的假设空间和表示能力。

此外,无论是MoE还是广义的稀疏化,目前都存在一个“致命”挑战:缺乏特别有效的方法来降低其存储消耗。例如,一个70亿参数的模型即使通过稀疏化使计算量小于70亿,但其内存占用依然是一个70亿参数模型的规模。这在部署到手机等端侧设备时,会带来严峻的挑战。

轩文烽也表达了类似观点,他认为MoE当前的高效训练优势,某种程度上是“用显存占用换取计算效率”。虽然MoE不像稠密模型那样,参数增大后训练和推理成本急剧上升,但对于一个用42亿激活参数量达到130亿模型效果的MoE来说,推理成本是降低了,但显存占用并没有同比减少。

因此,“如何在优化显存占用的同时,保持这种高性价比的效果,可能是行业需要重点研究的课题。”

另一位从事MoE模型训练的研究员也感慨,实际训练中挑战不少。例如,训练和推理的工程复杂度高,万亿级MoE需要将专家分布在不同计算节点上,引入了额外的并行维度和网络通信开销;专家负载不平衡会拖累系统效率,极端情况可能浪费过半算力;参数利用率有待提升,每个专家都必须先成为“通才”学习基础知识,才能进一步“专精”,导致同参数量下MoE模型的表现往往不及传统稠密模型。

尽管如此,这些从业者普遍坦言,就当下的现实条件与算力约束而言,MoE肯定是一个极具希望的方向,是必然的发展趋势。

或许在算力无限的理想状态下,未必非要使用MoE。但在算力依然短缺的今天,我们无法空谈那个不存在的未来。当然,如果把目光放远到十年或二十年后,随着硬件和计算框架的演进,架构的选择或许会更加自由多样。

而在当下这个具体的时间点,从业者能做的,是基于MoE现有的技术挑战和优化空间,尽可能进行改进,使其训练更高效、性能更优、部署更易。

例如,如何为MoE设计更好的加速框架?MoE模型并不容易加速,因为涉及大量专家。这些专家该如何部署?是每个专家独占一张GPU,还是切片后分布式部署在多张卡上?这些都是待解的工程难题。

再比如,当前MoE大模型似乎出现一个趋势:参数规模不断攀升,但性能未必同步增长,有时甚至不如参数量更小的模型。一个典型的对比是,参数量达3140亿的Grok-1,其性能与Mistral AI的8x7B模型(总参数量约560亿)相当。这是为什么?

宋晨阳认为,一个核心原因在于数据质量。Scaling Law成立的前提,是拥有充足且高质量的训练数据。对于相同的架构和参数量,数据质量更高的模型,可以用更少的数据量达到同等甚至更好的效果。

此外,除了数据,决定模型性能的另一大因素是训练技巧,包括批次大小、学习率调度策略等,这些都极具讲究。目前,许多头部厂商的这些“秘诀”并未完全公开,需要更多从业者通过实践去探索。当然,也有像面壁智能这样的“逆行者”,在发布MiniCPM-2B的同时,于技术报告中详细披露了批次调度、学习率调度、词表大小选取等细节,为学界和业界提供了宝贵的参考。

轩文烽在总结XVERSE-MoE-A4.2B的研发经验时也觉得,如果重来一次,实验计划可以设计得更紧凑,研发进程或许能更快一些。

虽然大家都渴望找到那个最优解,将大模型训练得又快又好,但不可否认,技术探索没有边界,没有最优,只有更优。

MoE乃至更广泛的稀疏化技术,未必就代表了AI的终极未来,但它无疑为我们提供了丰富的技术想象空间。例如,是否可以朝着更稀疏的方向演进,将专家切分得极细,直至实现神经元级别的稀疏激活?那又会带来怎样的效果?

这无疑是一个充满前景、值得深入探索的技术方向。

来源:https://www.leiphone.com/category/ai/hX10OfglU2Tqdrlk.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

盛大EverMind投资300万孵化ReUnite:AI大模型记忆技术助力全球寻亲
业界动态
盛大EverMind投资300万孵化ReUnite:AI大模型记忆技术助力全球寻亲

近日,科技领域迎来一则充满人文关怀的喜讯:盛大集团旗下EverMind正式宣布,将孵化一款名为“ReUnite(重逢)”的AI记忆寻人公益平台。该产品的核心使命,是依托先进的大模型长期记忆技术,为全球离散家庭构建一座高效、精准的数字寻亲桥梁。 这一项目的起源颇具故事性,堪称“民间智慧闪耀”。它诞生于

热心网友
05.15
三星与米拉研究院专家合并技术实现AI模型高效瘦身不损性能
AI
三星与米拉研究院专家合并技术实现AI模型高效瘦身不损性能

这项研究由三星人工智能蒙特利尔实验室、米拉魁北克人工智能研究院、蒙特利尔理工学院、蒙特利尔大学、麦吉尔大学及三星韩国人工智能中心联合完成,并于2026年4月在预印本平台arXiv上发布,论文编号为arXiv:2604 04356v1。 当前AI部署面临一个核心挑战:随着顶级大语言模型的参数规模膨胀至

热心网友
05.15
东北大学研究揭示AI大模型先做决定后推理的决策机制
AI
东北大学研究揭示AI大模型先做决定后推理的决策机制

这项由东北大学Khoury计算机科学学院与ServiceNow研究院、Mila实验室合作完成的研究,为我们理解大语言模型的“思考”方式,投下了一颗震撼弹。论文发表于2026年4月,编号为arXiv:2604 01202v2,其核心发现挑战了我们对AI推理过程的传统认知。 向ChatGPT或Claud

热心网友
05.14
微软AI内存优化新突破:模型更聪明却无需额外内存消耗
AI
微软AI内存优化新突破:模型更聪明却无需额外内存消耗

这项由微软研究院与清华大学联合发布的突破性研究成果,于2026年4月正式公开,论文编号为arXiv:2604 01220v1。它针对当前人工智能发展中的一个核心挑战——如何在提升模型能力的同时控制资源消耗——提出了一个极具创新性的解决方案。 如今,手机AI助手已融入日常生活,但你是否想过:能否让AI

热心网友
05.14
清华大学IndexCache技术提升AI大模型长文本处理速度80%
AI
清华大学IndexCache技术提升AI大模型长文本处理速度80%

在人工智能技术快速迭代的当下,大型语言模型的功能日益强大,但一个普遍存在的挑战也浮出水面:面对超长文本输入时,模型的处理速度会大幅降低,运算成本急剧增加。这一问题的根源,在于模型核心的“注意力机制”计算复杂度。 我们可以将注意力机制比作一位极其细致的图书管理员。每当接收到一个新词或新句子,这位管理员

热心网友
05.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

华硕枪神10X发布 搭载9950X3D与全息光显风扇
科技数码
华硕枪神10X发布 搭载9950X3D与全息光显风扇

华硕在ROGDAY2026上发布了枪神10X整机,首次搭载三颗可联动显示的全息光显风扇,外观极具未来感。其核心配置顶级,采用AMD锐龙99950X3D2处理器、ROGRTX5080显卡、64GB内存及4TBSSD,并配备高效三区独立散热系统,定价69999元。

热心网友
05.16
鹿客V3 Max智能门锁发布 支持4米远距离无线充电
科技数码
鹿客V3 Max智能门锁发布 支持4米远距离无线充电

智能门锁领域迎来重磅新品。知名品牌鹿客近期于京东平台正式发售其旗舰型号V3 Max智能门锁,该产品凭借创新的隔空无线充电技术与先进的AI视觉识别系统引发市场关注。官方定价为3572元,在部分参与促销活动的地区,消费者可享受补贴,最终入手价有望低至2799元,性价比优势显著。 鹿客V3 Max在视觉安

热心网友
05.16
华硕ROG魔霸10系列游戏本发布 搭载9955HX3D与RTX 5070 Ti
科技数码
华硕ROG魔霸10系列游戏本发布 搭载9955HX3D与RTX 5070 Ti

在备受瞩目的ROG DAY 2026广州站活动中,华硕重磅发布了其新一代高性能游戏笔记本电脑——ROG魔霸10系列。该系列包含16英寸的魔霸10与屏幕更大的18英寸魔霸10 Plus两款机型,旨在为硬核玩家带来顶级的游戏体验。 ROG魔霸10系列的硬件配置堪称顶级。处理器方面,用户最高可选择搭载AM

热心网友
05.16
小米手环10 Pro配置曝光 双灯组双PD传感器升级详解
科技数码
小米手环10 Pro配置曝光 双灯组双PD传感器升级详解

5月15日,小米官方正式公布了小米手环10 Pro的完整配置信息。作为新一代旗舰手环,它在健康监测精准度、运动功能专业度以及佩戴舒适度上均实现了显著突破,为用户带来了更全面的智能穿戴体验。 小米手环10 Pro 健康监测:精度与维度的双重跃升 本次升级的核心在于健康监测能力的全面进化。小米手环10

热心网友
05.16
金士顿推出新款FURY Renegade Pro DDR5 RDIMM内存散热马甲
科技数码
金士顿推出新款FURY Renegade Pro DDR5 RDIMM内存散热马甲

金士顿扩展其可超频的ECCRDIMM内存系列,新增高达7600MT s型号。其中高速型号采用全新铝制散热马甲,提升散热效率以保障高负载下的稳定运行。该系列同时支持ECC校验与超频,兼顾性能与数据完整性,适用于AI计算、工程仿真等高要求专业场景。

热心网友
05.16