蚂蚁百灵Ring-2.6-1T开源模型Agent执行能力全面升级
5月15日,蚂蚁百灵正式开源其旗舰级思考模型Ring-2.6-1T,相关权重文件已在Hugging Face和ModelScope两大主流开源平台同步发布。事实上,该模型此前已率先登陆OpenRouter平台,并开放了限时免费的API接口供开发者体验,引发了广泛的技术尝鲜与讨论。

此次开源的Ring-2.6-1T模型,其核心设计理念聚焦于“按需思考”,引入了名为“Reasoning Effort”的可调节推理强度机制,提供high与xhigh两档模式。这一创新设计允许开发者根据任务的实际复杂度与性能需求,动态调配模型的计算资源。具体而言,high模式优化了高频Agent工作流的执行效率,特别适用于多轮对话、工具调用及任务拆解等日常应用场景;而xhigh模式则全力释放模型的深度推理潜能,专为应对数学竞赛、复杂科研分析等高难度挑战而设计。这一差异化能力设计,被业界视为不仅是技术能力的突破,更是工程实用化道路上的一次重要跨越。
评测表现:两档模式,各显神通
那么,这套可调节推理机制的实际性能表现如何?根据多项权威基准评测数据,两种模式展现出清晰的差异化优势,覆盖了从高效执行到深度推理的全场景需求。
在high模式下,Ring-2.6-1T展现了卓越的Agent场景执行能力。其在评估智能体工作流性能的PinchBench上获得87.60分,表现优于GPT-5.4的xHigh模式及Gemini-3.1-Pro的high模式;在电信领域任务基准Tau2-Bench Telecom中,更取得了95.32的高分。这些成绩充分证明,该模型在处理需要快速、精准执行复杂指令链的场景中,已具备强大的竞争力。
当切换至xhigh模式,模型则转向攻坚克难。在AIME 26数学竞赛级别测试中,其得分高达95.83,已逼近多家头部闭源模型的顶尖水平;在考察深度科学知识与复杂逻辑推理的GPQA Diamond基准测试中,也获得了88.27的稳健分数。两档模式的精准定位,有效覆盖了从日常高效执行到极限深度思考的完整能力频谱。
训练基石:异步架构与“棒冰算法”
强大性能的背后,离不开创新训练方法的坚实支撑。Ring-2.6-1T采用了一套先进的异步强化学习训练架构。该架构的关键在于将策略采样与模型参数更新这两个核心步骤解耦,形成独立的处理流水线。此举有效解决了传统同步训练中常见的GPU资源闲置与等待问题,从而大幅提升了整体训练吞吐量,并为开展更长时间周期的稳定持续训练奠定了基础。
此外,百灵团队还将此前在Ring-1T模型中验证有效的“棒冰算法”集成至这套异步RL框架中,进一步攻克了深度强化学习训练过程中的稳定性难题。关于这些核心训练技术的更多实现细节与原理,官方表示将在后续发布的技术报告中予以全面披露。
战略聚焦:从“刷分”到“实用”
若将视野放宽,会发现Ring-2.6-1T的开源并非孤立事件。回顾近一个月,蚂蚁百灵已密集迭代并开源了多款模型,覆盖了Ling语言模型与Ring推理模型两大产品线。
一个清晰的战略转向正浮出水面:相较于单纯追逐更大的参数规模或更高的单项评测分数,百灵更加强调“真实生产环境下的实用体验”。其模型系列集体切入了一个关键维度——“Token Efficiency”(令牌效率),即致力于以更少的计算资源消耗,完成更高质量的任务输出。这种对效率的极致追求,显然更贴合企业级应用对成本控制与性能表现的平衡考量。
市场的反馈是最直接的试金石。此前,百灵发布的Ling-2.6-flash模型的匿名测试版“Elephant Alpha”在OpenRouter平台上线后,曾连续多日位列趋势榜榜首,日均tokens调用量达到百亿级别。这从侧面有力印证了,其秉持的“实用主义”技术路线,正在获得广大开发者与市场的积极认可与热烈回应。
相关攻略
蚂蚁百灵开源Ring-2 6-1T模型,核心为可调节的“按需思考”机制,提供high与xhigh两档推理强度。high模式高效处理多轮对话等任务,xhigh模式专攻数学竞赛等高难度挑战。模型采用异步强化学习与“棒冰算法”提升训练效率,战略聚焦于提升真实环境下的计算效率与实用性。
蚂蚁灵波开源具身大模型LingBot-VLA,旨在提升机器人跨本体与跨任务泛化能力,降低落地成本。在GM-100真机评测中,其平均成功率提升至17 3%,刷新纪录;仿真测试成功率亦提高9 92%。该模型基于超两万小时真机数据预训练,仅需少量演示即可迁移任务,并配套开源工具链,推动具身智能规模化应用。
艾瑞咨询报告指出,金融智能体是金融机构数智化转型的关键。蚂蚁数科凭借业务理解与AI工程能力,被列为综合领导者。其“四车间”架构与金融大模型解决了决策可解释性问题,在AI应用、风控等场景表现突出。公司探索按效付费的RaaS模式,与机构风险共担,已助力银行提升效率与客户满意度。预计到。
第五届ATEC科技精英赛在香港收官,赛事以“无遥操”为核心,要求机器人在户外复杂地形中完全自主完成吊桥穿越、垃圾分拣等任务。来自全球的13支队伍参赛,浙江大学凭借全自主智能表现夺冠。比赛旨在推动机器人从实验室走向真实应用,通过真实场景挑战测试机器人的感知、决策与执行能力,促。
当AI眼镜学会“跑腿”:语音解锁单车,无感支付停车费 近来,智能穿戴领域的一个新动向值得关注:阿里旗下的千问AI眼镜,正式接入了蚂蚁集团的GPASS平台。这可不是一次简单的功能叠加,它意味着,诸如共享单车骑行、停车缴费这一系列高频的“AI办事”功能,开始从手机屏幕转移到了你的眼前。 简单说,借助GP
热门专题
热门推荐
苹果MacStudio库存见底,预示新款即将发布。外观预计延续经典紧凑设计,接口布局不变。核心升级为M5Max和M5Ultra芯片,性能大幅提升,但内存供应可能受限。固态硬盘速度有望翻倍。作为苹果专业桌面新旗舰,其起售价可能小幅上调,WWDC大会可能是发布窗口。
对于使用尼康Z卡口APS-C画幅(DX格式)相机(如Z fc、Z30、Z50)的摄影爱好者而言,在套机镜头之外选择一支定焦镜头,是提升创作自由度和画面质量的关键一步。尼克尔 Z DX 24mm f 1 7正是这样一款专为轻量化与大光圈设计的定焦镜头,目前京东售价1899元,为追求便携与画质平衡的用户
自动驾驶技术的分级标准正面临行业内部的深度反思与重构。在2026北京车展上,小马智行联合创始人兼CEO彭军发表的观点,将行业关注的焦点从技术参数转向了更为根本的责任归属议题。 彭军明确指出,当前广泛采用的L1至L5自动驾驶分级体系已显得“极其无厘头”。他认为,这些层级划分并非衡量自动驾驶商业化前景的
4月28日,《商业内幕》发布的一篇深度报道,揭示了特斯拉自动驾驶承诺背后日益凸显的信任危机。多年来,“未来将实现完全自动驾驶”是特斯拉吸引消费者的核心卖点,但对于众多早期支持者而言,这一愿景正变得愈发渺茫。 图1:马斯克确认HW3车型无法升级至无监督版FSD 问题的根源在于硬件代际差异。在近期举行的
当AI智能体不仅能说会道,还能帮你订餐、写报告,甚至用周杰伦的风格唱首歌时,汽车行业的竞争焦点,已经悄然从硬件参数转向了软件生态。这届北京车展,就是最好的证明。 “你能让它用周杰伦那种吐字不清的风格,唱首歌吗?”在火山引擎的展台,一位体验者向工作人员提出了这个有趣的要求。指令下达后,座舱里的“豆包”





