人大与蚂蚁合作推出原生MoE扩散语言模型，即将开源

时间：2025-12-13 12:09

9月12日消息，在外滩大会上，蚂蚁集团与中国人民大学联合发布原生MoE架构的扩散语言模型（dLLM）“LLaDA-MoE”。据介绍，这款新模型通过非自回归的掩码扩散机制，首次通过原生训练的MoE在大

今年9月12日，蚂蚁集团携手中国人民大学在外滩大会上重磅推出全球首个原生MoE架构的扩散语言模型LLaDA-MoE，引发业界广泛关注。

蚂蚁集团发布LLaDA-MoE模型

这款创新型模型采用非自回归的掩码扩散机制，开创性地在原生训练的MoE架构上实现了与Qwen2.5相媲美的语言智能水平，在上下文理解、指令执行、代码编写和数学推理等方面都有出色表现。

实验数据显示，LLaDA-MoE在代码生成、数学运算、智能体等任务上的表现均优于LLaDA1.0/1.5和Dream-7B等同类扩散语言模型，其性能甚至接近或超越了Qwen2.5-3B-Instruct这样的自回归模型。特别值得注意的是，该模型在仅激活1.4B参数的条件下，就能达到相当于3B参数稠密模型的性能。

LLaDA-MoE性能对比

蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员蓝振忠表示："LLaDA-MoE的成功验证了工业级大规模训练的可行性和稳定性，标志着我们在扩散语言模型的研究道路上又向前迈进了一大步。"

中国人民大学高瓴人工智能学院李崇轩副教授从理论层面进行了分析："当前主流大模型普遍采用的自回归生成方式仅能实现单向建模，这种生成token的方式限制了模型对双向依赖关系的捕捉能力。"

蚂蚁集团透露，研究人员克服了诸多技术难关。团队耗时3个月重构训练代码，依托自研ATorch分布式框架的EP并行技术，基于Ling2.0基础模型的训练数据，在负载均衡、噪声采样等关键问题上取得突破，最终完成了包含7B总参数量（激活1.4B）的MoE架构的20T数据训练。

在蚂蚁的统一评估标准下，LLaDA-MoE在HumanEval等17项基准测试中平均提升8.4%，领先上一代产品13.2%，与Qwen2.5-3B-Instruct表现相当。这些数据有力证明了"MoE放大器效应"在扩散语言模型中的适用性，为未来10B至100B规模的稀疏模型研发指明方向。

蓝振忠同时宣布，蚂蚁计划近期向全球开源完整的模型权重和专为dLLM优化的推理框架，这将显著提升运行效率。所有技术文档和代码将在GitHub及Hugging Face平台同步发布。他强调："自回归并非唯一出路，我们相信扩散模型同样能成为实现AGI的重要路径。"

来源：https://www.163.com/tech/article/K98JRMQ600097U7R.html

蚂蚁大语言模型

上一篇贝特瑞15年领跑负极材料市场，降本提价战略开拓新机遇 下一篇蔚来ET9地平线版上市：81.8万起售，租电方案71万起

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时，同比增长5 0%。充换电服务业用电增速高达48 8%，信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

追风者冰川360S25液冷散热器售价429元，三联一体风扇便捷安装，冷头小体积纯铜底座噪音18dB，风扇转速300-2000RPM、风量75CFM、静压2 96mmAq，五年质保漏液包赔。

科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映，GooglePlayServices后台耗电异常，电量占比最高达99 97%，远超正常水平，严重影响续航。目前故障原因不明，谷歌尚未发布官方声明。

科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足盼新CEO改进

罗永浩批评苹果iOS27创新不足，称仅有双iPhone同号、音量分离等数十项细节改进，认为库克时代缺乏突破性创新，股市虽好但消费者只能被迫接受挤牙膏式升级。

科技数码 · 2026-06-29

年国产车出口710万辆，两家车企销量破百万

2025年国产汽车出口总量达710万辆，同比增长21%。奇瑞以134万辆居首，比亚迪105万辆次之，上汽乘用车出口占比60%最高，长城出口51万辆。吉利、长安等主流品牌同步增长，小鹏、零跑等新兴品牌海外拓展加速。