蚂蚁开源业内首个100B扩散语言模型LLaDA2.0详解
蚂蚁技术研究院于12月12日宣布,正式推出LLaDA2.0系列离散扩散大语言模型,并同步公开了详细的技术报告。该模型被称作“业内首个参数规模达100B的扩散语言模型”。
LLaDA2.0系列包含基于MoE架构的16B和100B两个版本,首次将扩散模型的参数量级拓展到了千亿规模。
研究院指出,此次发布的模型不仅打破了扩散模型难以扩展的固有印象,更在代码、数学和智能体任务上展现出了超越同类自回归模型的卓越性能。
通过创新的Warmup-Stable-Decay持续预训练策略,LLaDA2.0能够无缝继承现有自回归模型的知识,避免了从头训练带来的高昂成本。结合不限于常规SFT的置信任知并行训练和扩散模型版DPO技术,LLaDA2.0在保障生成质量的同时,充分利用了扩散模型的并行解码优势,实现了相比同类自回归模型2.1倍的推理加速,证明了在超大规模参数下,扩散模型不仅可行,而且更强、更快。

蚂蚁技术研究院从知识理解、数学、代码、推理及智能体等多个维度对模型进行了全面评估。结果显示,LLaDA2.0在结构化生成任务上具有显著优势,并在其他领域与主流开源自回归模型表现相当。
目前,LLaDA2.0的模型权重及相关训练代码均已开源至Huggingface平台。
相关攻略
近日,开源技术圈迎来一项标志性进展:百度依托文心大模型打造的PaddleOCR项目,在GitHub上的Star数量突破73 3K,首次超越谷歌旗下长期占据领先地位的Tesseract OCR(73 2K)。这意味着,全球最受开发者欢迎的OCR开源项目正式易主,标志着大模型驱动的技术范式正在重塑行业格
Cursor的命运,悬在两个速度之间:AI自主编码成熟的速度,和Cursor自我蜕变的速度。 这家公司正处在一个奇特的矛盾点上:它依然蒸蒸日上,却又似乎正在走向绝望。关于这家一度是“Vibe Coding”代名词的明星公司,市场同时存在着两种截然相反却又似乎都能成立的观点。 数据描绘的是一幅烈火烹油
近日,Reddit上一则热帖引发了广泛关注。游戏开发商Beamable的首席执行官Jon Radoff,利用一个周末的时间,借助AI助手Claude,成功复活了自己19岁时开发的一款名为《未来往昔传奇》(Legends of Future Past)的MUD(多用户地下城)游戏。这款诞生于1992年
上周,Anthropic刚宣布对OpenClaw采取限制措施,这周,事情就发展到了一个新阶段——连OpenClaw项目的核心人物Peter Steinberger的个人账户也遭到了封禁。这场风波究竟会如何演变? 今天一早,OpenClaw创始人Peter Steinberger在社交平台X上发文确认
最近,大模型推理领域出现了一个挺有意思的新思路。来自哈尔滨工业大学(深圳)、深圳河套学院和Independent Researcher的研究团队,提出了一种名为LRT(Latent Reasoning Tuning,隐式思考模型)的方法。它试图解决一个越来越明显的痛点:那些“慢思考”模型动辄生成数千
热门专题
热门推荐
近日,国家能源局联合发改委、工信部、国家数据局正式印发《关于促进人工智能与能源双向赋能的行动方案》。这份重磅文件的核心思路非常清晰:一方面,以坚实的能源基础支撑人工智能(AI)的快速发展;另一方面,利用AI技术赋能能源行业转型升级。其核心目标是推动能源、算力、应用场景、数据与算法模型五大关键要素深度
在挑选文生视频工具时,若您正在智谱清影与Runway Gen-3之间权衡,那么了解两者在生成效果上的具体差异,将有助于您做出更明智的选择。本文将从画质清晰度、细节纹理、运动自然度与视频连贯性等核心维度,通过实测对比为您详细解析。 一、画质与分辨率表现 首先对比硬性指标。智谱清影基于CogVideoX
想用通义万相生成一张科技感十足的数据可视化背景,但出来的画面总觉得少了点“内味儿”?数字界面、粒子流、电路纹理这些关键元素一个不见,画面平平无奇?这通常不是工具的问题,而是提示词没有精准锚定科技可视化的核心要素,或者模型参数没调到最佳状态。别急,下面这几种方法,能帮你把想法精准地“翻译”成画面。 一
想要在Vidu生成的视频中实现流畅的慢动作或快进效果?虽然模型界面没有提供直接调整播放速度的滑块,但通过巧妙的提示词设计、利用内置功能,或结合后期处理工具,你完全可以精准掌控视频的节奏与时间感。本文将为你详细解析四种实用方法,从生成前到生成后,全方位满足你的创作需求。 一、通过精准提示词引导运动节奏
当您使用海螺AI生成的英文论文在提交查重时遭遇高重复率或AIGC检测异常,请不要急于归咎于工具本身。核心原因在于,尽管AI生成的文本格式标准、语法地道,但其语言模式和常见短语组合,并未针对知网、维普、万方等中文查重数据库的语义比对逻辑进行专门优化。换言之,机器认为流畅自然的表达,在查重系统的算法看来





