首页 游戏 软件 资讯 排行榜 专题
首页
AI
蚂蚁开源万亿参数线性思考模型,获IMO金牌水平业界首例

蚂蚁开源万亿参数线性思考模型,获IMO金牌水平业界首例

热心网友
21
转载
2026-02-13


智东西
作者 程茜
编辑 李水青

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

智东西2月13日消息,今天,蚂蚁集团开源全球首个基于混合线性架构的万亿参数思考模型Ring-2.5-1T。

根据最新信息,相比蚂蚁2025年10月发布的万亿级思考模型Ring-1T,Ring-2.5-1T在生成效率、推理深度和长时程任务执行能力三个关键维度上实现提升,且在长文本生成、数学推理与智能体任务执行上达到开源领先水平。

在生成效率上,Ring-2.5-1T在32K以上长文本生成场景中,对比上代模型访存规模降低至1/10,生成吞吐提升3倍以上。

在深度思考能力方面,该模型在国际数学奥林匹克竞赛(IMO 2025)和中国数学奥林匹克(CMO 2025)自测均达到金牌水平,IMO为35分、CMO为105分。


目前,该模型已经适配Claude Code等智能体框架与OpenClaw个人AI助理,支持多步规划与工具调用。

Ring-2.5-1T的模型权重与推理代码已在Hugging Face、ModelScope等主流开源平台发布,最新平台Chat体验页和API服务将在近期上线。

Hugging Face:https://huggingface.co/inclusionAI/Ring-2.5-1T

ModelScape:https://modelscope.cn/organization/inclusionAI

一、拿下多项开源SOTA,达IMO金牌水平

为了评估Ring-2.5-1T的深度思考与长时任务执行能力,蚂蚁研究人员选择了具有代表性的开源思考模型DeepSeek-v3.2-Thinking、Kimi-K2.5-Thinking和闭源API GPT-5.2-thinking-high、Gemini-3.0-Pro-preview-thinking-high、Claude-Opus-4.5-Extended-Thinking作为比较。

蚂蚁集团公布的多项权威基准测试结果显示,Ring-2.5-1T在数学、编程和逻辑推理的IMOAnswerBench、AIME 26、HMMT 25、LiveCodeBench、ARC-AGI-V2等高难度推理任务以及Agent搜索、工具调用和软件工程Gaia2-search、Tau2-bench和SWE-Bench Verified等长时任务执行方面均实现了最先进的开源性能。

此外,蚂蚁还对深度思考(Heavy Thinking)模式下的模型性能进行了额外测试,Ring-2.5-1T在IMOAnswerBench、HMMT-25等数学竞赛推理基准和LiveCodeBench-v6代码生成基准中超越所有对比模型。

其中,在IMO 2025(满分42分)中,Ring-2.5-1T获得35分,达到金牌水平;在CMO 2025(满分126分)中,该模型获得105分,超过金牌分数线78分和国家队集训队选拔线87分。

研究人员比较了Ring-2.5-1T和Ring-1T的答案发现,前者在推理逻辑的严谨性、高级数学证明技术的应用以及答案表述的完整性方面均有提升。

在智能体搜索任务Gaia2-search中,Ring-2.5-1T在开源模型中取得了SOTA性能。Gaia2环境强调跨应用工具协作和复杂任务执行能力,Ring-2.5-1T在规划生成和多步工具调用方面均展现出较高的效率和准确性。

二、三大关键维度提升,能快速适配Claude Code、OpenClaw

相比蚂蚁2025年10月发布的万亿级思考模型Ring-1T,Ring-2.5-1T在生成效率、推理深度和长时程任务执行能力三个关键维度上有显著改进。

首先在生成效率方面,通过采用高比例线性注意力机制,Ring-2.5-1T将内存访问开销降低至1/10,并将超过32K token序列的生成吞吐量提高了3倍以上,适用于深度思考和长时程任务执行。

其次在深度思考层面,该模型在RLVR(基于可验证奖励的强化学习)基础上引入密集奖励机制,为推理过程提供严格性反馈,使Ring-2.5-1T同时达到IMO 2025和CMO 2025(自测)的金奖水平。

最后是长程任务执行,Ring-2.5-1T通过大规模完全异步智能体RL(强化学习)训练,增强了解决复杂任务的长时程自主执行能力,使其能快速适配Claude Code等智能体编程框架和OpenClaw个人AI助手。

三、引入混合线性注意力架构,可提升长程推理场景吞吐量

Ring-2.5-1T基于Ling 2.5架构,通过优化注意力机制,可提升长文本推理的效率与稳定性。

作为实现自主模型架构的关键进展,Ling 2.5架构在Ling 2.0架构的基础上引入了一种混合线性注意力架构。通过增量训练,研究人员将Ling 2.0架构中的GQA(分组查询注意力)升级为MLA(多头线性注意力)+Lightning Linear结构的1:7比例。

具体来说,基于其先前发布的Ring-flash-linear-2.0技术路线图,研究人员将部分GQA层转换为Lightning Linear注意力,以提升长时程推理场景中的吞吐量。

同时为了进一步压缩KV缓存,研究人员将剩余的GQA层近似转换为MLA,同时针对QK Norm(查询-核归一化)和Partial RoPE(部分旋转位置编码)等特征进行针对性改进,从而增强Ling 2.5架构的表达能力。


在此基础上,模型激活参数规模从前代的51B提升至63B,并且在混合线性注意力架构的支持下,其推理效率相比Ling 2.0仍实现大幅提升。

与仅具备32B激活参数的Kimi K2架构相比,在1T总参数量下,Ling 2.5架构在长序列推理任务中的吞吐表现优势显著,且随着生成长度增加,效率优势持续扩大。


▲在一台配备8块H20-3e GPU的机器上,批处理大小=64,比较不同生成长度下的解码吞吐量


▲在一台配备8块H200 GPU的机器上,批处理大小=64,比较不同生成长度下的解码吞吐量

结语:从短对话到复杂规划,大模型需突破长文本瓶颈

随着AI大模型应用从短对话向长文档处理、跨文件代码理解、复杂任务规划等场景扩展,Ring-2.5-1T可以缓解模型在长输出场景下计算开销高、推理速度慢的问题。

此前,传统架构在面对超长文本、多模态内容、复杂业务流程时,普遍面临算力成本高、响应延迟大、部署难度高等问题,蚂蚁百灵团队此次通过底层架构创新,或为行业提供一条兼顾性能、成本与扩展性的技术路径。


来源:https://www.163.com/dy/article/KLM6MQNO051180F7.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Meta全球AI培训周:鼓励员工深度应用智能办公工具
科技数码
Meta全球AI培训周:鼓励员工深度应用智能办公工具

IT之家 3 月 28 日消息,据《商业内幕》今日报道,在 Meta,AI 已经无处不在。多位员工透露,Meta 近期开始集中举办高强度“AI 培训周”,通过密集培训和实践活动,推动员工更深入使用

热心网友
03.28
Meta AI培训周启动,高强度推动全员深度掌握AI工具
科技数码
Meta AI培训周启动,高强度推动全员深度掌握AI工具

据《商业内幕》报道,Meta近期集中举办“AI转型周”活动,通过黑客马拉松、产品演示和实验项目等形式,要求各层级员工展示借助AI工具完成的工作成果。活动重点演示AI智能体在电脑与手机间的协同操作,目

热心网友
03.28
谷歌员工热捧AI助手Smith,访问火爆致官方限流
科技数码
谷歌员工热捧AI助手Smith,访问火爆致官方限流

IT之家 3 月 27 日消息,据《商业内幕》今晚报道,多位知情人士透露,谷歌员工正在使用一款名为“Agent Smith”的内部 AI 工具,该工具可以自动处理包括编程在内的多项任务。由于使用人数

热心网友
03.28
谷歌AI工具Agent Smith因使用量超限遭访问限制应对指南
科技数码
谷歌AI工具Agent Smith因使用量超限遭访问限制应对指南

来源:环球网【环球网科技综合报道】3月28日消息,据外媒BusinessInsider 报道,日前谷歌内部推出一款名为Agent Smith的AI工具,因使用量激增、人气爆棚,已被限制访问权限。该工

热心网友
03.28
罗福莉观点:实现AGI后的下一步是机器自进化
科技数码
罗福莉观点:实现AGI后的下一步是机器自进化

“干活消耗的Token量是简单问答的10倍甚至100倍,成本大幅提高。”回答月之暗面CEO杨植麟“为什么涨价”的问题时,智谱CEO张鹏这样说道。上文这组问答,发生在今天举行的2026中关村论坛年会开

热心网友
03.27

最新APP

恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26

热门推荐

鲁大师软件管家使用教程:一键升级常用电脑软件
电脑教程
鲁大师软件管家使用教程:一键升级常用电脑软件

鲁大师软件管家可安全升级常用软件:一、启动后点击顶部“软件管家”选项卡自动扫描;二、在“可升级软件”列表点击绿色“升级”按钮确认安装;三、勾选多个软件后点“批量升级”按钮并发处理;

热心网友
03.29
北京推进智能网联新能源车险,支持L2-L4级别统一适配
科技数码
北京推进智能网联新能源车险,支持L2-L4级别统一适配

3月29日,北京已在全国率先启动智能网联新能源汽车商业保险产品开发应用。新产品基本沿用现有的新能源商业车险体系,按照“总体稳定、部分优化”的原则,主要为消费者和汽车企业关心的特定智驾场景、软硬件损失

热心网友
03.29
苹果今年将发布两款新iPhone应用,包含聊天机器人
科技数码
苹果今年将发布两款新iPhone应用,包含聊天机器人

预计苹果今年将发布两款新的 iPhone 应用,包括 Apple Business 应用和一款具备类似聊天机器人功能的 Siri 应用。借助 Apple Business 应用,使用全新 Apple

热心网友
03.29
苹果聘请前谷歌副总裁分管AI产品营销
科技数码
苹果聘请前谷歌副总裁分管AI产品营销

据 Axios 报道,苹果公司已聘请前谷歌副总裁 Lilian Rincon 担任人工智能产品营销副总裁。加入苹果之前, Rincon 曾任谷歌购物产品副总裁。在苹果, Rincon 将负责苹果所有

热心网友
03.29
雷军销售心法:一句话卖出一辆车,金牌销售的秘诀
科技数码
雷军销售心法:一句话卖出一辆车,金牌销售的秘诀

3月29日消息,谁能料到前段时间奥迪车主与雷军之间的那个打赌,竟然还有后续。这到底是咋回事?事情发生在3月25日,网友@单手开吉利 在雷军的微博评论区晒出了自己去年10月刚提的奥迪车,还当场立下一个

热心网友
03.29