M2.5登顶OpenRouter：打造人人所需的核心AI模型秘诀

时间：2026-02-23 10:52

作者｜王兆洋邮箱｜ wangzhaoyang@pingwest com先看一组数据：评估模型编程能力的主流榜单SWE-bench Verified上，Claude Opus 4 6 得分8

作者｜王兆洋
邮箱｜ wangzhaoyang@pingwest.com

先看一组数据：

评估模型编程能力的主流榜单SWE-bench Verified上，Claude Opus 4.6 得分80.8%，Gemini 3.1 Pro 80.6%，MiniMax 2.5 80.2%，GLM-5 77.8%，Kimi K2.5 76.8%。

最大分差也不超过4分，差距就这么点大。开发者今天其实已经很难只靠这些“考试分数”来选择要用的模型。

但最近还有另一组很有意思的数据，来自最重要的模型调用平台之一OpenRouter：

最新统计显示，最近其平台上的token调用激增，且其中很多需求来自100K-1M长文本任务，也就是agent工作流最典型消耗区间。刺激这些需求爆发的一个重要因素是一个新模型的发布——MiniMax M2.5。单是在OpenRouter上，它发布后七天的调用量就到了破纪录的 3.07T tokens。

这说明什么？

今天公开的benchmark也就是打榜式的评测已经没那么重要了，因为差别不再明显。但与此同时，真实使用者的感受越来越关键，做好了，你就可以成为最受欢迎的那一个，因为用户们对模型的需求远远未被满足。

所以，关键的问题变成，如何做出大家最需要的那个模型。

可以先来看看这个备受欢迎的MiniMax M2.5是一个什么样的模型。

1.模型部署上：10B激活参数，实战中总结的甜点位

MiniMax M2.5，一个总参数 230B，激活参数只有10b的模型。它不会叫自己端侧模型，但已经是私有化部署最友好的模型。这是一个实战中总结出来的性价比甜点位，也是头部模型里这种友好度里的唯一选择。

2.价格：没有波动，这是开发者最在意的负担

人们想尽可能多消耗token，但对价格变化又有负担，M2.5通过各种工程和算法更新，在性能提升同时，把价格维持住了，这其实说明MiniMax自己也清楚知道真实的开发者的最大负担是什么。

3.模型的核心能力：死磕Coding和Agent，让开发者真的认真考虑用它替代Claude

此次M2.5在编程上性能提升的来源，不再是“不论过程只管对标结果”的方式，而是把开发过程里的代码工程甚至开发思维训练到模型里。M2.5的spec能力就是一个典型的代表。

最新报告这样形容：M2.5 具备了像架构师一样思考和构建的能力，比如模型演化出了原生 Spec 行为：在动手写代码前，以架构师视角主动拆解功能、结构和 UI 设计，实现完整的前期规划。

M系列阶段性目标明确，此时此刻，它就是要死磕Coding 和 Agent。它在SWE-Bench Verified 已经做到80.2%的水平，同时约1 元/小时的成本给你100 tokens/秒的吞吐，还要什么自行车。

这当然是个带有赌注成分的决定，并且需要做出trade off，但目前看起来效果不错收益明显。大量Claude Code用户在选择模型时真的逃不开要考虑M系列模型，这就很能说明问题。

4.推理：推理效率的极致优化，每一环都是在解决业务压力

M2.5在工程化上持续补全：平衡吞吐和稳定的Windowed FIFO，把大量重复前缀合并处理、解放出40倍效率的树状结构……推理的每个环节都在继续优化。

5.以及可能是最重要的，又一个技术创新：RL框架Forge

MiniMax在技术上一直挺有追求，不少新的思路是它第一批尝试然后反馈给行业里，比如此前的交错思维链式推理等。而这一次它重点介绍了用在M2.5训练里的一个新的 RL 框架 Forge 。

这是一个工业级的Agent RL 训练方案，也就是它的目标非常务实，就是面向真实复杂的场景大规模训练AI Agent。

上个阶段把Agent训入模型的方式其实依然粗糙，它们有点“混为一谈”的感觉，而Forge这次核心探索了对Agent部分和模型本身基础能力做解耦的方法。

先把Agent和它需要的环境抽象出来，与模型本身区分开，然后在两者间增加一个中间层，既扮演物理隔离的作用，也提供智能调度和实施策略调整的角色。这很巧妙。

更有意思的是，这样解耦后，还解锁了一个新的scale的方向，就是把各种Agent框架放进去做训练，最终获得泛化能力。这是个非常有用，甚至直接能影响开发者体验的泛化，它让M2.5可以适配各种见过没见过的“脚手架”。

这同样是真实agent场景里非常需要的能力。

看过M 2.5的这些训练重点，你会发现，它的这些优化都不是为了刷榜，而是为了解决非常具体的问题——在Agent的需求快速取代了所谓对话场景的需求后，模型该提供什么样的智能。

它需要在效果和价格上找到微妙平衡，持续提升性能的同时降低成本。

这说来简单，但对这个度的把握很难。模型厂要对这些开发者的需求有最直接的感知。而MiniMax的“手感”其实正来自这家公司自己内部。

M2.5背后，MiniMax 的M系列模型最重要的研发思路就是要解决它内部各个团队在开发agent的过程里遇到的问题。

闫俊杰曾在M1发布后分享过：“公司内部的小伙伴一直在搭建各种各样的Agent，来帮助解决公司飞速发展中遇到的各项挑战……但是我们发现没有一款模型在这些Agent上能完全满足我们的需求。这里面的挑战在于好的模型需要在效果、价格和推理速度上取得好的平衡，这几乎是一个‘不可能三角’……我们一直在探索，能不能有一款模型能在效果、价格和速度上能取得比较好的平衡，从而让更多的人能受益于Agent时代的智能提升。”

所以，MiniMax M2发布时，它做到当时Claude主力模型价格的8%，而最新的MiniMax M2.5价格是Claude主力模型的1/12。甚至，M2.5直接被形容为“1万美元可以让4个Agent连续工作一年”的模型，这几乎意味着你可以不需要考虑使用成本地近乎无限使用它。

同时，从死磕编程能力、开发Forge框架再到各种推理优化，它继续榨出更好的模型效果和更快推理速度。