12月12日消息,蚂蚁技术研究院今天正式发布了LLaDA2.0系列离散扩散大语言模型(dLLM),并同步公开了其背后的技术报告,该模型被称为“业内首个100B扩散语言模型”。
LLaDA2.0系列包含基于MoE架构的16B(mini)与100B(flash)两个版本,一举将扩散模型的参数量级首次扩展到了100B级别。
蚂蚁技术研究院表示,此次发布的模型不仅打破了业界对扩散模型难以扩展的固有印象,更在代码、数学和智能体任务上展现出了超越同级自回归(AR)模型的强大性能。
通过创新的Warmup-Stable-Decay(WSD)持续预训练策略,LLaDA2.0能够无缝继承现有自回归模型的知识,避免了从头训练带来的高昂成本。结合不限于常规SFT的、基于置信度感知并行训练(CAP)以及扩散模型版DPO,LLaDA2.0在保证生成质量的同时,充分利用了扩散模型的并行解码优势,实现了相比AR模型高达2.1倍的推理加速。这证明了在超大规模参数下,扩散模型不仅可行,而且可以更强大、更高效。

蚂蚁技术研究院从知识理解、数学、代码、推理及智能体等多个维度对模型进行了综合评估。结果显示,LLaDA2.0在结构化生成任务(如代码生成)上具有显著优势,并在其他领域与顶尖开源自回归模型实力持平。
目前,LLaDA2.0的模型权重(16B/100B)及相关训练代码已在Huggingface平台开源,具体地址如下:
