3月9日,一个来自OpenClaw创始人Peter Steinberger的消息引发了关注。他最新公布的PinchBench基准测试榜单显示,两款国产大模型——MiniMax M2.1(含M2.5)与月之暗面Kimi K2.5,被明确推荐为适配OpenClaw(昵称“小龙虾”)的最佳选择。
在全球32款主流模型的比拼中,这两款模型分别位列第二和第三名,表现仅次于谷歌的Gemini 3 Flash。它们的成功率分别达到93.6%和93.5%,更难得的是,在响应速度与性价比方面展现出显著优势。值得一提的是,MiniMax在测试时使用的还不是其最新模型M2.5。
在实际测试环节,两款模型在OpenClaw核心的系统操作、多任务并行、长文本处理等代理任务中表现稳定。其成功率仅比谷歌旗舰模型低1.5到1.7个百分点,却成功将海外竞品Claude Opus 4.6和GPT-4o甩在身后。
具体而言:
MiniMax M2.1:成功率之王,性价比碾压
它拥有国内直连、延迟低的优势,能很好地适配中文语境与本土办公软件;其上下文窗口大,适合处理长文档及并行多任务场景;尤其在代码编写和复杂逻辑处理方面表现突出;使用成本仅为Claude Sonnet 4.5的1/25,非常适合需要长期“养龙虾”的普通用户和开发者。
Kimi K2.5:低成本与稳定兼备,调用量第一
其价格亲民,是OpenRouter平台上OpenClaw调用量最高的模型;智能体能力强,擅长处理多步骤任务和工具调用;响应速度快,位于性能第一梯队;对中文理解精准,适合处理本土化业务场景;适用于个人项目、小团队、预算有限场景以及日常办公自动化。
资料补充:
PinchBench是专为OpenClaw设计的硬核基准测试平台,由Kilo AI团队推出。它旨在通过真实任务流来评估全球大模型对OpenClaw框架的执行能力,而非传统的知识问答或数学推理测试。

