蚂蚁开源首个百亿参数中文扩散模型LLaDA 2.0
12月12日消息,蚂蚁技术研究院今天正式发布了LLaDA2.0系列离散扩散大语言模型(dLLM),并同步公开了其背后的技术报告,该模型被称为“业内首个100B扩散语言模型”。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
LLaDA2.0系列包含基于MoE架构的16B(mini)与100B(flash)两个版本,一举将扩散模型的参数量级首次扩展到了100B级别。
蚂蚁技术研究院表示,此次发布的模型不仅打破了业界对扩散模型难以扩展的固有印象,更在代码、数学和智能体任务上展现出了超越同级自回归(AR)模型的强大性能。
通过创新的Warmup-Stable-Decay(WSD)持续预训练策略,LLaDA2.0能够无缝继承现有自回归模型的知识,避免了从头训练带来的高昂成本。结合不限于常规SFT的、基于置信度感知并行训练(CAP)以及扩散模型版DPO,LLaDA2.0在保证生成质量的同时,充分利用了扩散模型的并行解码优势,实现了相比AR模型高达2.1倍的推理加速。这证明了在超大规模参数下,扩散模型不仅可行,而且可以更强大、更高效。

蚂蚁技术研究院从知识理解、数学、代码、推理及智能体等多个维度对模型进行了综合评估。结果显示,LLaDA2.0在结构化生成任务(如代码生成)上具有显著优势,并在其他领域与顶尖开源自回归模型实力持平。
目前,LLaDA2.0的模型权重(16B/100B)及相关训练代码已在Huggingface平台开源,具体地址如下:
相关攻略
北京商报讯(记者 金朝力)3月25日,2026中关村论坛年会在北京启幕。本届论坛以 "科技创新与产业创新深度融合 "为主题,汇聚全球百余个国家和地区的上千名嘉宾,成为前沿科技落地的重要展示平台。其中,亮
“培育发展未来能源、量子科技、具身智能、脑机接口、6G等未来产业。”政府工作报告连续第二年提到6G产业,标志着6G已成为国家战略布局的重要组成部分。然而,市场在期待之余,也不乏疑问:5G的许多愿景尚
国际在线报道(记者马睿丽):2026中关村论坛年会如约而至,这场以“科技创新与产业创新深度融合”为主题的科技盛会,让人们真切感受到:科技正在悄然改变我们的衣食住行。AR眼镜让“交流”无障碍在论坛开幕
新京报贝壳财经讯(记者陈维城)3月25日—29日,2026中关村论坛年会举行,在本届年会全体大会以及平行论坛上,AR翻译眼镜完全替代了人工的同声传译。亮亮视野副总裁陆程向新京报贝壳财经记者表示,得益
新京报贝壳财经讯(记者陈维城)3月25日—29日,2026中关村论坛年会举行,在本届年会全体大会以及平行论坛上,AR翻译眼镜完全替代了人工的同声传译。亮亮视野副总裁陆程向新京报贝壳财经记者表示,得益
热门专题
热门推荐
可通过电子税务局 、随申办App 小程序、个税APP三种方式查询下载个税纳税记录:电子税务局需登录后搜索或按路径进入,下载PDF用身份证后6位解密;随申办依托统一认证,支持直接保存
3月26日,在SEMICON China 2026“半导体智能制造-未来工厂”论坛上,一场关于半导体制造AI未来形态的思想碰撞引发行业瞩目。智现未来董事长兼CEO管健博士受邀登台,发表题为《从“+A
南都讯 记者李洁琼 3月28日,珠海天际航空科技有限公司在金湾区天章产业园开业。作为珠海低空经济产业的新锐力量,天际航空智能制造基地的投运,标志着金湾区在载人级飞行器制造领域迈出关键一步,为珠海“天
来源:中国新闻网中新社杭州3月27日电 (鲍梦妮)随着机器人产业发展以及春晚机器人表演等热点带动,今年以来,中国多地机器人租赁业务持续升温。在上海上线的全球首个开放式机器人租赁平台“擎天租”,自去年
大象新闻·大象财富记者 李莉 张迪驰315消费者权益日刚过,广东李女士在某平台购买的“全新”打印机频繁报错,维修无果。她查询最新质保发现,整机标注保修三年,系统却显示剩余保修期不足两年,经售后核实确





