首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
M2.5登顶OpenRouter:打造人人所需的核心AI模型秘诀

M2.5登顶OpenRouter:打造人人所需的核心AI模型秘诀

热心网友
29
转载
2026-02-23


作者 | 王兆洋
邮箱 | wangzhaoyang@pingwest.com

先看一组数据:

评估模型编程能力的主流榜单SWE-bench Verified上,Claude Opus 4.6 得分80.8%,Gemini 3.1 Pro 80.6%,MiniMax 2.5 80.2%,GLM-5 77.8%,Kimi K2.5 76.8%。

最大分差也不超过4分,差距就这么点大。开发者今天其实已经很难只靠这些“考试分数”来选择要用的模型。

但最近还有另一组很有意思的数据,来自最重要的模型调用平台之一OpenRouter:


最新统计显示,最近其平台上的token调用激增,且其中很多需求来自100K-1M长文本任务,也就是agent工作流最典型消耗区间。刺激这些需求爆发的一个重要因素是一个新模型的发布——MiniMax M2.5。单是在OpenRouter上,它发布后七天的调用量就到了破纪录的 3.07T tokens。

这说明什么?

今天公开的benchmark也就是打榜式的评测已经没那么重要了,因为差别不再明显。但与此同时,真实使用者的感受越来越关键,做好了,你就可以成为最受欢迎的那一个,因为用户们对模型的需求远远未被满足。

所以,关键的问题变成,如何做出大家最需要的那个模型。

可以先来看看这个备受欢迎的MiniMax M2.5是一个什么样的模型。

1.模型部署上:10B激活参数,实战中总结的甜点位

MiniMax M2.5,一个总参数 230B,激活参数只有10b的模型。它不会叫自己端侧模型,但已经是私有化部署最友好的模型。这是一个实战中总结出来的性价比甜点位,也是头部模型里这种友好度里的唯一选择。

2.价格:没有波动,这是开发者最在意的负担

人们想尽可能多消耗token,但对价格变化又有负担,M2.5通过各种工程和算法更新,在性能提升同时,把价格维持住了,这其实说明MiniMax自己也清楚知道真实的开发者的最大负担是什么。

3.模型的核心能力:死磕Coding和Agent,让开发者真的认真考虑用它替代Claude

此次M2.5在编程上性能提升的来源,不再是“不论过程只管对标结果”的方式,而是把开发过程里的代码工程甚至开发思维训练到模型里。M2.5的spec能力就是一个典型的代表。

最新报告这样形容:M2.5 具备了像架构师一样思考和构建的能力,比如模型演化出了原生 Spec 行为:在动手写代码前,以架构师视角主动拆解功能、结构和 UI 设计,实现完整的前期规划。

M系列阶段性目标明确,此时此刻,它就是要死磕Coding 和 Agent。它在SWE-Bench Verified 已经做到80.2%的水平,同时约1 元/小时的成本给你100 tokens/秒的吞吐,还要什么自行车。

这当然是个带有赌注成分的决定,并且需要做出trade off,但目前看起来效果不错收益明显。大量Claude Code用户在选择模型时真的逃不开要考虑M系列模型,这就很能说明问题。

4.推理:推理效率的极致优化,每一环都是在解决业务压力

M2.5在工程化上持续补全:平衡吞吐和稳定的Windowed FIFO,把大量重复前缀合并处理、解放出40倍效率的树状结构……推理的每个环节都在继续优化。

5.以及可能是最重要的,又一个技术创新:RL框架Forge

MiniMax在技术上一直挺有追求,不少新的思路是它第一批尝试然后反馈给行业里,比如此前的交错思维链式推理等。而这一次它重点介绍了用在M2.5训练里的一个新的 RL 框架 Forge 。

这是一个工业级的Agent RL 训练方案,也就是它的目标非常务实,就是面向真实复杂的场景大规模训练AI Agent。

上个阶段把Agent训入模型的方式其实依然粗糙,它们有点“混为一谈”的感觉,而Forge这次核心探索了对Agent部分和模型本身基础能力做解耦的方法。

先把Agent和它需要的环境抽象出来,与模型本身区分开,然后在两者间增加一个中间层,既扮演物理隔离的作用,也提供智能调度和实施策略调整的角色。这很巧妙。


更有意思的是,这样解耦后,还解锁了一个新的scale的方向,就是把各种Agent框架放进去做训练,最终获得泛化能力。这是个非常有用,甚至直接能影响开发者体验的泛化,它让M2.5可以适配各种见过没见过的“脚手架”。

这同样是真实agent场景里非常需要的能力。

看过M 2.5的这些训练重点,你会发现,它的这些优化都不是为了刷榜,而是为了解决非常具体的问题——在Agent的需求快速取代了所谓对话场景的需求后,模型该提供什么样的智能。

它需要在效果和价格上找到微妙平衡,持续提升性能的同时降低成本。

这说来简单,但对这个度的把握很难。模型厂要对这些开发者的需求有最直接的感知。而MiniMax的“手感”其实正来自这家公司自己内部。

M2.5背后,MiniMax 的M系列模型最重要的研发思路就是要解决它内部各个团队在开发agent的过程里遇到的问题。

闫俊杰曾在M1发布后分享过:“公司内部的小伙伴一直在搭建各种各样的Agent,来帮助解决公司飞速发展中遇到的各项挑战……但是我们发现没有一款模型在这些Agent上能完全满足我们的需求。这里面的挑战在于好的模型需要在效果、价格和推理速度上取得好的平衡,这几乎是一个‘不可能三角’……我们一直在探索,能不能有一款模型能在效果、价格和速度上能取得比较好的平衡,从而让更多的人能受益于Agent时代的智能提升。”

所以,MiniMax M2发布时,它做到当时Claude主力模型价格的8%,而最新的MiniMax M2.5价格是Claude主力模型的1/12。甚至,M2.5直接被形容为“1万美元可以让4个Agent连续工作一年”的模型,这几乎意味着你可以不需要考虑使用成本地近乎无限使用它。

同时,从死磕编程能力、开发Forge框架再到各种推理优化,它继续榨出更好的模型效果和更快推理速度。



而其中像Forge框架这种创新,就是整个M2.5背后思路的典型代表:只有那些自己在日常工作环境里对各种agent脚手架之间的适配感到过绝望,对真实环境里模型与agent能力之间的关系真正“抓狂”过的模型团队才会去解决这些问题。

M2.5显然是MiniMax自己在面对“不可能三角”时最需要的那类模型。现在,它也成了开发者们最需要的那类模型。

所以作为模型公司本身,当你一直在牌桌上,你自己其实就是最能检验模型实际能力和体验的第一道关。

当一家模型公司自己对生产力AI的需求达到最先进程度,它自己面对的体验困局也就会是人们最重要和普遍的需求,它的创新方向就会是大家期待的模型的进步方向。

它自己喜欢的那个模型,就会是大家最喜欢的模型。


点个“爱心”,再走 吧

来源:https://www.163.com/dy/article/KMEOSFIT0511N33R.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

具身智能研发框架Dexbotic重塑机器人开发流程
AI
具身智能研发框架Dexbotic重塑机器人开发流程

近日,开源具身智能原生框架Dexbotic宣布正式支持以RLinf作为其分布式强化学习后端。对具身智能开发者而言,这不仅是一次普通的工程适配,更意味着VLA模型研发中长期存在的「SFT与RL割裂」问题,正在被真正打通。 这是一种典型的「乐高式协作」:双方不强行Fork、不粗暴揉合代码,而是保持清晰边

热心网友
05.13
RMS-MoE模型通过检索记忆优化专家路由调度效率
AI
RMS-MoE模型通过检索记忆优化专家路由调度效率

随着大模型参数规模不断增长,混合专家(Mixture-of-Experts, MoE)架构因其稀疏激活特性,成为平衡模型性能与计算开销的主流方案。然而,在实际的Web级应用部署中,一个关键挑战日益凸显:传统MoE的路由机制通常是“无记忆”的。 试想,在搜索引擎、智能问答或多轮对话等高并发场景下,用户

热心网友
05.12
编程入门指南从零基础到理解核心概念
编程语言
编程入门指南从零基础到理解核心概念

编程十年的一点分享 在软件开发的路上走过十几年,从一个爱好者到以此为业,有些体会或许值得聊聊,就当是抛砖引玉吧。 最早接触编程,是从BASIC和C语言开始的。工作后,随着需要,陆续学习了dBase、Access这类桌面数据库的开发。真正以开发为职业,可以说始于FoxPro 5 0,之后技术栈随着项目

热心网友
05.07
编程初学者入门指南与核心思维解析
编程语言
编程初学者入门指南与核心思维解析

引言 编程,是一门实践科学。这意味着,学习它的最佳方式就是动手去敲代码。但这是否意味着,我们可以因此轻视理论的学习呢? 入门编程 如果你去各大技术社区提问“该如何入门编程”,五花八门的答案会瞬间涌来。 不过,仔细梳理一下,无外乎以下几种流派: 学院派 他们推荐从C语言入手,并辅以数据结构、操作系统等

热心网友
05.07
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”
科技数码
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”

想象一下这个场景: 你让 AI Agent 帮你修一个代码 Bug。它打开项目,读了 20 个文件,改了改,跑了一下测试,没过,又改,又跑,还是没过……来回折腾了十几轮,终于——还是没修好。 你关掉电脑,松了口气。然后收到了 API 账单。 上面的数字可能让你倒吸一口凉气——AI Agent 自主修

热心网友
05.06

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

广东无人机飞行空域最新调整范围扩大详解
科技数码
广东无人机飞行空域最新调整范围扩大详解

广东无人机适飞空域扩大16%至10 24万平方公里,覆盖全省57%陆地面积,滨海、郊野、工业园区及非核心城区公园等区域开放,深圳市区新增连片适飞区。飞行需通过民航局UOM平台提前申请,严禁“黑飞”,违者将受处罚。平台已升级,实现全国规则统一与分钟级空域更新,支持低空物流与巡检等应用。

热心网友
05.18
iPhone 17 Pro杭州门店抢购火爆 七千元起售迅速售罄
科技数码
iPhone 17 Pro杭州门店抢购火爆 七千元起售迅速售罄

杭州Costco门店因iPhone17系列手机引发抢购热潮,数百人排队致迅速断货。抢购源于官方降价与地方补贴叠加:iPhone17Pro全系直降千元,同时当地青年消费补贴可再减10%,最高省千元。双重优惠下,256GB版iPhone17Pro到手价低至7172元,较电商平台便宜近千元,吸引本地及周边消费者。目前门店仍处缺货状态,补货时间未定。

热心网友
05.18
千帆星座第九批组网卫星成功发射升空
科技数码
千帆星座第九批组网卫星成功发射升空

5月17日晚,长征八号运载火箭在海南商业航天发射场点火升空,成功将千帆星座第九批组网卫星送入预定轨道。此次发射是该发射场启用以来的第15次成功发射,也是今年第5次发射,体现了我国商业航天发射能力的日益成熟和常态化运营的稳步推进。

热心网友
05.18
七彩虹iGame M15/M16 Origo游戏本2026款上市 首发11499元起
科技数码
七彩虹iGame M15/M16 Origo游戏本2026款上市 首发11499元起

七彩虹新款iGameM15 M16Origo2026款游戏本已发售,起售价11499元。M15为15 3英寸黑色机身,配备2 5K300Hz屏,最高可选Ultra9处理器与RTX5070显卡。M16为16英寸白色款,屏幕规格相同,处理器性能更强,电池容量更大。两款均提供多种配置,享受国家补贴后价格更具竞争力,面向中高端游戏玩家与创作者。

热心网友
05.18
联想ThinkPad T14 Gen 7发布 支持LPCAMM2可更换内存
科技数码
联想ThinkPad T14 Gen 7发布 支持LPCAMM2可更换内存

联想在北美市场推出新款ThinkPadT14Gen7商务笔记本,支持用户自行更换LPCAMM2内存。该机型提供多款英特尔酷睿Ultra处理器选项,内存可选16GB至64GB,电池与屏幕亦有多种配置,其中顶配版搭载OLED屏幕。产品起售价为1618美元,高配版本价格超过3700美元,主要面向商用及专业办公市场,兼顾性能、可升级性与不同预算需求。

热心网友
05.18