今年9月12日,蚂蚁集团携手中国人民大学在外滩大会上重磅推出全球首个原生MoE架构的扩散语言模型LLaDA-MoE,引发业界广泛关注。
这款创新型模型采用非自回归的掩码扩散机制,开创性地在原生训练的MoE架构上实现了与Qwen2.5相媲美的语言智能水平,在上下文理解、指令执行、代码编写和数学推理等方面都有出色表现。
实验数据显示,LLaDA-MoE在代码生成、数学运算、智能体等任务上的表现均优于LLaDA1.0/1.5和Dream-7B等同类扩散语言模型,其性能甚至接近或超越了Qwen2.5-3B-Instruct这样的自回归模型。特别值得注意的是,该模型在仅激活1.4B参数的条件下,就能达到相当于3B参数稠密模型的性能。
蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员蓝振忠表示:"LLaDA-MoE的成功验证了工业级大规模训练的可行性和稳定性,标志着我们在扩散语言模型的研究道路上又向前迈进了一大步。"
中国人民大学高瓴人工智能学院李崇轩副教授从理论层面进行了分析:"当前主流大模型普遍采用的自回归生成方式仅能实现单向建模,这种生成token的方式限制了模型对双向依赖关系的捕捉能力。"
蚂蚁集团透露,研究人员克服了诸多技术难关。团队耗时3个月重构训练代码,依托自研ATorch分布式框架的EP并行技术,基于Ling2.0基础模型的训练数据,在负载均衡、噪声采样等关键问题上取得突破,最终完成了包含7B总参数量(激活1.4B)的MoE架构的20T数据训练。
在蚂蚁的统一评估标准下,LLaDA-MoE在HumanEval等17项基准测试中平均提升8.4%,领先上一代产品13.2%,与Qwen2.5-3B-Instruct表现相当。这些数据有力证明了"MoE放大器效应"在扩散语言模型中的适用性,为未来10B至100B规模的稀疏模型研发指明方向。
蓝振忠同时宣布,蚂蚁计划近期向全球开源完整的模型权重和专为dLLM优化的推理框架,这将显著提升运行效率。所有技术文档和代码将在GitHub及Hugging Face平台同步发布。他强调:"自回归并非唯一出路,我们相信扩散模型同样能成为实现AGI的重要路径。"
