首页 游戏 软件 资讯 排行榜 专题
首页
AI
蚂蚁开源业内首个100B扩散语言模型LLaDA2.0详解

蚂蚁开源业内首个100B扩散语言模型LLaDA2.0详解

热心网友
16
转载
2025-12-12

蚂蚁技术研究院于12月12日宣布,正式推出LLaDA2.0系列离散扩散大语言模型,并同步公开了详细的技术报告。该模型被称作“业内首个参数规模达100B的扩散语言模型”。

LLaDA2.0系列包含基于MoE架构的16B和100B两个版本,首次将扩散模型的参数量级拓展到了千亿规模。

研究院指出,此次发布的模型不仅打破了扩散模型难以扩展的固有印象,更在代码、数学和智能体任务上展现出了超越同类自回归模型的卓越性能。

通过创新的Warmup-Stable-Decay持续预训练策略,LLaDA2.0能够无缝继承现有自回归模型的知识,避免了从头训练带来的高昂成本。结合不限于常规SFT的置信任知并行训练和扩散模型版DPO技术,LLaDA2.0在保障生成质量的同时,充分利用了扩散模型的并行解码优势,实现了相比同类自回归模型2.1倍的推理加速,证明了在超大规模参数下,扩散模型不仅可行,而且更强、更快。

蚂蚁开源业内首个100B扩散语言模型LLaDA2.0

蚂蚁技术研究院从知识理解、数学、代码、推理及智能体等多个维度对模型进行了全面评估。结果显示,LLaDA2.0在结构化生成任务上具有显著优势,并在其他领域与主流开源自回归模型表现相当。

目前,LLaDA2.0的模型权重及相关训练代码均已开源至Huggingface平台。

来源:https://tech.ifeng.com/c/8p1fbVPzCPV
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

GitHub最受欢迎OCR项目PaddleOCR使用指南
AI
GitHub最受欢迎OCR项目PaddleOCR使用指南

近日,开源技术圈迎来一项标志性进展:百度依托文心大模型打造的PaddleOCR项目,在GitHub上的Star数量突破73 3K,首次超越谷歌旗下长期占据领先地位的Tesseract OCR(73 2K)。这意味着,全球最受开发者欢迎的OCR开源项目正式易主,标志着大模型驱动的技术范式正在重塑行业格

热心网友
05.20
Cursor会倒闭吗分析其商业模式与未来前景
AI
Cursor会倒闭吗分析其商业模式与未来前景

Cursor的命运,悬在两个速度之间:AI自主编码成熟的速度,和Cursor自我蜕变的速度。 这家公司正处在一个奇特的矛盾点上:它依然蒸蒸日上,却又似乎正在走向绝望。关于这家一度是“Vibe Coding”代名词的明星公司,市场同时存在着两种截然相反却又似乎都能成立的观点。 数据描绘的是一幅烈火烹油

热心网友
05.20
Claude周末复刻30年前经典游戏完整教程
AI
Claude周末复刻30年前经典游戏完整教程

近日,Reddit上一则热帖引发了广泛关注。游戏开发商Beamable的首席执行官Jon Radoff,利用一个周末的时间,借助AI助手Claude,成功复活了自己19岁时开发的一款名为《未来往昔传奇》(Legends of Future Past)的MUD(多用户地下城)游戏。这款诞生于1992年

热心网友
05.20
Anthropic解封创始人账号 上周封禁OpenClaw系误会
AI
Anthropic解封创始人账号 上周封禁OpenClaw系误会

上周,Anthropic刚宣布对OpenClaw采取限制措施,这周,事情就发展到了一个新阶段——连OpenClaw项目的核心人物Peter Steinberger的个人账户也遭到了封禁。这场风波究竟会如何演变? 今天一早,OpenClaw创始人Peter Steinberger在社交平台X上发文确认

热心网友
05.20
隐式思维链模型LRT推理能力更强速度更快
AI
隐式思维链模型LRT推理能力更强速度更快

最近,大模型推理领域出现了一个挺有意思的新思路。来自哈尔滨工业大学(深圳)、深圳河套学院和Independent Researcher的研究团队,提出了一种名为LRT(Latent Reasoning Tuning,隐式思考模型)的方法。它试图解决一个越来越明显的痛点:那些“慢思考”模型动辄生成数千

热心网友
05.20

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

算力时代电力价值重估 能源如何支撑数字经济
AI
算力时代电力价值重估 能源如何支撑数字经济

近日,国家能源局联合发改委、工信部、国家数据局正式印发《关于促进人工智能与能源双向赋能的行动方案》。这份重磅文件的核心思路非常清晰:一方面,以坚实的能源基础支撑人工智能(AI)的快速发展;另一方面,利用AI技术赋能能源行业转型升级。其核心目标是推动能源、算力、应用场景、数据与算法模型五大关键要素深度

热心网友
05.20
智谱清影与Runway Gen3视频生成模型对比评测
AI
智谱清影与Runway Gen3视频生成模型对比评测

在挑选文生视频工具时,若您正在智谱清影与Runway Gen-3之间权衡,那么了解两者在生成效果上的具体差异,将有助于您做出更明智的选择。本文将从画质清晰度、细节纹理、运动自然度与视频连贯性等核心维度,通过实测对比为您详细解析。 一、画质与分辨率表现 首先对比硬性指标。智谱清影基于CogVideoX

热心网友
05.20
通义万象制作数据可视化科技背景的实用教程
AI
通义万象制作数据可视化科技背景的实用教程

想用通义万相生成一张科技感十足的数据可视化背景,但出来的画面总觉得少了点“内味儿”?数字界面、粒子流、电路纹理这些关键元素一个不见,画面平平无奇?这通常不是工具的问题,而是提示词没有精准锚定科技可视化的核心要素,或者模型参数没调到最佳状态。别急,下面这几种方法,能帮你把想法精准地“翻译”成画面。 一

热心网友
05.20
Vidu视频慢动作与快进效果制作教程
AI
Vidu视频慢动作与快进效果制作教程

想要在Vidu生成的视频中实现流畅的慢动作或快进效果?虽然模型界面没有提供直接调整播放速度的滑块,但通过巧妙的提示词设计、利用内置功能,或结合后期处理工具,你完全可以精准掌控视频的节奏与时间感。本文将为你详细解析四种实用方法,从生成前到生成后,全方位满足你的创作需求。 一、通过精准提示词引导运动节奏

热心网友
05.20
海螺AI学术论文查重降重功能实测与效果分析
AI
海螺AI学术论文查重降重功能实测与效果分析

当您使用海螺AI生成的英文论文在提交查重时遭遇高重复率或AIGC检测异常,请不要急于归咎于工具本身。核心原因在于,尽管AI生成的文本格式标准、语法地道,但其语言模式和常见短语组合,并未针对知网、维普、万方等中文查重数据库的语义比对逻辑进行专门优化。换言之,机器认为流畅自然的表达,在查重系统的算法看来

热心网友
05.20