蚂蚁开源业内首个100B扩散语言模型LLaDA2.0详解_AI热点日报

蚂蚁开源业内首个100B扩散语言模型LLaDA2.0详解

类型：热点整理2025-12-12

IT之家 12 月 12 日消息，蚂蚁技术研究院今日宣布推出 LLaDA2 0 系列离散扩散大语言模型，并同步公开了背后的技术报告，宣称是“业内首个 100B 扩散语言模型”。LLaDA2 0 包含

蚂蚁技术研究院于12月12日宣布，正式推出LLaDA2.0系列离散扩散大语言模型，并同步公开了详细的技术报告。该模型被称作“业内首个参数规模达100B的扩散语言模型”。

LLaDA2.0系列包含基于MoE架构的16B和100B两个版本，首次将扩散模型的参数量级拓展到了千亿规模。

研究院指出，此次发布的模型不仅打破了扩散模型难以扩展的固有印象，更在代码、数学和智能体任务上展现出了超越同类自回归模型的卓越性能。

通过创新的Warmup-Stable-Decay持续预训练策略，LLaDA2.0能够无缝继承现有自回归模型的知识，避免了从头训练带来的高昂成本。结合不限于常规SFT的置信任知并行训练和扩散模型版DPO技术，LLaDA2.0在保障生成质量的同时，充分利用了扩散模型的并行解码优势，实现了相比同类自回归模型2.1倍的推理加速，证明了在超大规模参数下，扩散模型不仅可行，而且更强、更快。

蚂蚁开源业内首个100B扩散语言模型LLaDA2.0

蚂蚁技术研究院从知识理解、数学、代码、推理及智能体等多个维度对模型进行了全面评估。结果显示，LLaDA2.0在结构化生成任务上具有显著优势，并在其他领域与主流开源自回归模型表现相当。

目前，LLaDA2.0的模型权重及相关训练代码均已开源至Huggingface平台。

来源：https://tech.ifeng.com/c/8p1fbVPzCPV

模型代码 ar

延伸阅读

补充最近整理过的热点入口。

蚂蚁开源业内首个100B扩散语言模型LLaDA2.0详解

相关热点

延伸阅读