游乐游手机版
首页/AI教程/文章详情

大模型价格相差20倍效果却相近,价格墙正在松动

时间:2026-06-22 15:46
同一份代码审计任务,MiniMax M3 花了 0 07 美元找到 13 个问题,最贵的 Claude Opus 4 8 max 花了 3 39 美元也只找到 15 个——便宜模型正在逼近专有模型的能力边界,这个趋势值得每个重度使用 LLM 的开发者认真对待。 引言 大模型的定价,一直有一道隐形的逻

同一份代码审计任务,MiniMax M3 花了 0.07 美元找到 13 个问题,最贵的 Claude Opus 4.8 max 花了 3.39 美元也只找到 15 个——便宜模型正在逼近专有模型的能力边界,这个趋势值得每个重度使用 LLM 的开发者认真对待。

价格差了 20 倍,效果却差得有限:大模型的价格墙正在松动

引言

大模型的定价,一直有一道隐形的逻辑:贵的就是好的,好的就该贵。这个逻辑最近开始松动。Kilo 上周发布了一次测试:用同一份预埋了 17 个已知问题的 webhook 服务代码,分别让 Claude Opus 4.8 和 MiniMax M3 做代码审计,记录每次运行的费用、耗时和发现问题数。结果有点让人意外——MiniMax M3 花了 0.07 美元,找到了 13 个问题;最便宜的一档花了 1.30,同样找到 13 个;最贵的 max 档花了 3.39,也不过找到 15 个。价格差了将近 50 倍,能力差了 2 个问题。

测试者并没有亲自用过 MiniMax M3,所以无法给出直接的使用体验。但 Claude Opus 从 4.7 升到 4.8 的实际感知并不明显——也许任务场景不同,也许差异在日常场景里还没体现出来。有实际使用经验的读者,欢迎在评论区聊聊效果,这有助于验证结论在更广场景下的成立程度。

测试是怎么设计的

Kilo 的测试设计有一个值得关注的细节:被审计的代码库不是随机找的,而是他们自己写的——一个用 TypeScript、Bun 和 SQLite 实现的 webhook 投递服务,接收事件、存储并向订阅者投递带签名的 payload。更关键的是,他们在代码里故意留了 17 个已知问题,覆盖安全、可靠性、正确性和测试覆盖率四个维度,然后用这份清单作为答题本,逐一核对每次审计报告。

每次运行使用相同的 prompt:

工具统一用 Kilo Code CLI,每次独立会话,不共享上下文,跑完记录 token 数、费用和耗时。

Claude Opus 4.8 跑了四档推理强度:medium、high、xhigh、max。MiniMax M3 没有同等的推理强度控制,只跑了一次默认设置。评分规则也很严格:某个问题必须被明确列为独立发现才算,部分提及不计数。

这个设计的好处是排除了大量干扰变量——输入固定、工具固定、评分标准固定,唯一变量就是模型和推理强度。结论因此可比,也因此刺眼。

数字说话

五次运行,结果如下:

模型发现问题数费用耗时
MiniMax M313/170.075m 03s
Claude Opus 4.8 medium13/171.303m 53s
Claude Opus 4.8 high13/171.93~4m 30s
Claude Opus 4.8 xhigh15/172.037m 26s
Claude Opus 4.8 max15/173.399m 24s

MiniMax M3 的 token 用量也更少——比 Claude Opus 4.8 medium 少了 41%,比 xhigh 少了 53%。价格差来自两头:token 少,单价也低。

最让人意外的不是 M3 便宜,而是 Claude Opus 4.8 max 的表现。它是最贵的一档,比 xhigh 多花了 67%,耗时将近 10 分钟,但发现的问题数和 xhigh 完全一样——而且还漏掉了一个 xhigh 抓到的问题。多花的钱,没买到更好的报告。

如果按「每发现一个问题的费用」来算,MiniMax M3 的性价比遥遥领先,Claude Opus 4.8 max 垫底。

推理档越高,不一定越好

Claude Opus 4.8 的四档推理强度,结果没有呈现一条直线上升的曲线——这是这次测试里另一个值得细看的发现。

medium 和 high 都找到了 13 个问题,从 medium 升到 high,token 只多了 6%,费用却多了 48%,发现数没有任何变化——钱花出去了,什么都没多找到。

从 high 升到 xhigh 才算买到了东西:token 多了 17%,费用只涨了 5%,发现数增加了 2 个,是四档里性价比最好的一跳。但 xhigh 升到 max 就又掉回来了——token 数量甚至略有下降,费用却猛涨 67%,发现数纹丝不动,还丢了一个 xhigh 找到的问题。

更有意思的是 medium 和 high 抓到了一个 xhigh 和 max 都漏掉的 bug:async callback 跑在了 synchronous transaction 里面。推理强度越高,模型花的注意力越多,但注意力的分配方向变了——它在更深的地方挖,却可能错过了某些表层问题。

Kilo 在报告里写道:

这个结论对日常使用有直接的参考价值:如果你的任务是全面覆盖,不一定要拉满推理强度;如果你想要最高性价比的 Claude 单次审计,xhigh 是目前最合理的选择,max 基本没有理由用。

MiniMax M3 漏掉了什么

13/17 意味着有 4 个问题没有被找到。Kilo 的报告里,M3 漏掉的三个分别是:

  • 无效 JSON 返回 500 而不是 400
  • 数据库初始化代码在 import 时执行,而不是在启动时
  • event 路由里有一个 async callback 跑在 synchronous transaction 里

值得一提的是,第三个问题(async callback)恰好是 Claude Opus 4.8 medium 和 high 找到、而 xhigh 和 max 也漏掉的那一个——这不是 M3 独有的盲点,更像是高推理强度模型的共同弱点。

这三个问题有个共同特点:它们不是会直接造成安全漏洞或数据丢失的致命问题,更多属于「代码质量和健壮性」层面。相比之下,M3 抓住的那些——返回 stored secret 的接口、签名计算用了不同的字节串、没有认证的路由——每一个都是真正的生产事故隐患。

换句话说,M3 的遗漏是有规律的:大 blocker 全捕到了,漏的是更细的代码实现问题。这不是随机的运气,更像是模型在有限的注意力下做了某种隐式的优先级排序。

对大多数审计场景来说,这个取舍是合理的。如果你的目标是「上线前最后一道安全检查」,0.07 美元能找到全部高危问题,剩下的 3 个小问题靠 code review 补;如果你需要一份完整详尽的质量报告,那才是 Claude Opus 4.8 xhigh 的用武之地。

价格墙正在松动

这次测试的结论,放进一个更大的背景里看会更清楚:便宜模型追赶专有模型的速度,远比我们预期的快。

一年前,能做代码审计的模型基本只有 Claude 和 GPT-4 这一档。现在 MiniMax M3 在这个任务上和 Claude Opus 4.8 medium 打平,费用是后者的 1/18。这不是孤例——Gemini Flash、Qwen、DeepSeek 这些模型在各自的基准测试上也在持续逼近顶级专有模型的水平。

差距仍然存在,但它在收窄,而且收窄的速度比价格下降的速度更快。Claude Opus 4.8 xhigh 比 M3 多找了 2 个问题,但贵了将近 30 倍。这 2 个问题值不值 30 倍的价格,取决于你的场景——但这个问题本身在一年前根本不需要问,因为那时候根本没有能与之相比的便宜选项。

Kilo 在报告末尾也点到了这个趋势:

这句话的重量,比测试数据本身更大。

按任务选模型

Kilo 的测试给了一个很实用的决策框架,不用再凭直觉选模型:

  • 大批量或预算有限的审计 → MiniMax M3。0.07 美元,13/17,5 分钟,主要安全问题全覆盖。
  • 快速过一遍,要 Claude → Opus 4.8 medium。1.30 美元,同样 13/17,最快,还额外抓到了 async callback in synchronous transaction 这个高档漏掉的问题。
  • 要最完整的单次报告 → Opus 4.8 xhigh。2.03 美元,15/17,性价比最好的高档选择。
  • Opus 4.8 max → 基本没有理由用。贵 67%,慢 2 分钟,还不如 xhigh。

背后的逻辑很简单:不同任务对「覆盖率」和「成本」的权衡不一样。一次上线前的快速安全扫描,和一次需要归档留存的完整质量审计,本来就该用不同的模型。问题是过去没有便宜的好选项,只能默认用最贵的。现在选项多了,该想清楚自己真正需要什么。

这也是这次测试真正有价值的地方——不是告诉你哪个模型最好,而是逼着你回答:对你的场景来说,「够用」到底是什么水平。

当然,一个任务、一个代码库不足以说明全部——代码审计只是众多场景里的一种,换成代码生成、重构、调试,结论可能不同。但两件事是清楚的:第一,多个模型在多个基准上都指向同一个方向,便宜模型的追赶不是偶然;第二,别人的测试数据只能给你参考,真正有价值的是拿你自己的任务跑一遍,而不是等别人告诉你答案。

参考资料

[1] Kilo: https://kilo.ai

[2] 发布了一次测试: https://blog.kilo.ai/p/we-audited-the-same-codebase-with

[3] Kilo Code: https://kilocode.ai

来源:https://cloud.tencent.com.cn/developer/article/2692753
上一篇Harness Engineering从想法到发布的一次完整实践全流程解读 下一篇元数据策略将大数据垃圾场变为数据资产库
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网