大模型价格相差20倍效果却相近，价格墙正在松动

时间：2026-06-22 15:46

同一份代码审计任务，MiniMax M3 花了 0 07 美元找到 13 个问题，最贵的 Claude Opus 4 8 max 花了 3 39 美元也只找到 15 个——便宜模型正在逼近专有模型的能力边界，这个趋势值得每个重度使用 LLM 的开发者认真对待。引言大模型的定价，一直有一道隐形的逻

同一份代码审计任务，MiniMax M3 花了 0.07 美元找到 13 个问题，最贵的 Claude Opus 4.8 max 花了 3.39 美元也只找到 15 个——便宜模型正在逼近专有模型的能力边界，这个趋势值得每个重度使用 LLM 的开发者认真对待。

价格差了 20 倍，效果却差得有限：大模型的价格墙正在松动

引言

大模型的定价，一直有一道隐形的逻辑：贵的就是好的，好的就该贵。这个逻辑最近开始松动。Kilo 上周发布了一次测试：用同一份预埋了 17 个已知问题的 webhook 服务代码，分别让 Claude Opus 4.8 和 MiniMax M3 做代码审计，记录每次运行的费用、耗时和发现问题数。结果有点让人意外——MiniMax M3 花了 0.07 美元，找到了 13 个问题；最便宜的一档花了 1.30，同样找到 13 个；最贵的 max 档花了 3.39，也不过找到 15 个。价格差了将近 50 倍，能力差了 2 个问题。

测试者并没有亲自用过 MiniMax M3，所以无法给出直接的使用体验。但 Claude Opus 从 4.7 升到 4.8 的实际感知并不明显——也许任务场景不同，也许差异在日常场景里还没体现出来。有实际使用经验的读者，欢迎在评论区聊聊效果，这有助于验证结论在更广场景下的成立程度。

测试是怎么设计的

Kilo 的测试设计有一个值得关注的细节：被审计的代码库不是随机找的，而是他们自己写的——一个用 TypeScript、Bun 和 SQLite 实现的 webhook 投递服务，接收事件、存储并向订阅者投递带签名的 payload。更关键的是，他们在代码里故意留了 17 个已知问题，覆盖安全、可靠性、正确性和测试覆盖率四个维度，然后用这份清单作为答题本，逐一核对每次审计报告。

每次运行使用相同的 prompt：

工具统一用 Kilo Code CLI，每次独立会话，不共享上下文，跑完记录 token 数、费用和耗时。

Claude Opus 4.8 跑了四档推理强度：medium、high、xhigh、max。MiniMax M3 没有同等的推理强度控制，只跑了一次默认设置。评分规则也很严格：某个问题必须被明确列为独立发现才算，部分提及不计数。

这个设计的好处是排除了大量干扰变量——输入固定、工具固定、评分标准固定，唯一变量就是模型和推理强度。结论因此可比，也因此刺眼。

数字说话

五次运行，结果如下：

模型	发现问题数	费用	耗时
MiniMax M3	13/17	0.07	5m 03s
Claude Opus 4.8 medium	13/17	1.30	3m 53s
Claude Opus 4.8 high	13/17	1.93	~4m 30s
Claude Opus 4.8 xhigh	15/17	2.03	7m 26s
Claude Opus 4.8 max	15/17	3.39	9m 24s

MiniMax M3 的 token 用量也更少——比 Claude Opus 4.8 medium 少了 41%，比 xhigh 少了 53%。价格差来自两头：token 少，单价也低。

最让人意外的不是 M3 便宜，而是 Claude Opus 4.8 max 的表现。它是最贵的一档，比 xhigh 多花了 67%，耗时将近 10 分钟，但发现的问题数和 xhigh 完全一样——而且还漏掉了一个 xhigh 抓到的问题。多花的钱，没买到更好的报告。

如果按「每发现一个问题的费用」来算，MiniMax M3 的性价比遥遥领先，Claude Opus 4.8 max 垫底。

推理档越高，不一定越好

Claude Opus 4.8 的四档推理强度，结果没有呈现一条直线上升的曲线——这是这次测试里另一个值得细看的发现。

medium 和 high 都找到了 13 个问题，从 medium 升到 high，token 只多了 6%，费用却多了 48%，发现数没有任何变化——钱花出去了，什么都没多找到。

从 high 升到 xhigh 才算买到了东西：token 多了 17%，费用只涨了 5%，发现数增加了 2 个，是四档里性价比最好的一跳。但 xhigh 升到 max 就又掉回来了——token 数量甚至略有下降，费用却猛涨 67%，发现数纹丝不动，还丢了一个 xhigh 找到的问题。

更有意思的是 medium 和 high 抓到了一个 xhigh 和 max 都漏掉的 bug：async callback 跑在了 synchronous transaction 里面。推理强度越高，模型花的注意力越多，但注意力的分配方向变了——它在更深的地方挖，却可能错过了某些表层问题。

Kilo 在报告里写道：

这个结论对日常使用有直接的参考价值：如果你的任务是全面覆盖，不一定要拉满推理强度；如果你想要最高性价比的 Claude 单次审计，xhigh 是目前最合理的选择，max 基本没有理由用。

MiniMax M3 漏掉了什么

13/17 意味着有 4 个问题没有被找到。Kilo 的报告里，M3 漏掉的三个分别是：

无效 JSON 返回 500 而不是 400
数据库初始化代码在 import 时执行，而不是在启动时
event 路由里有一个 async callback 跑在 synchronous transaction 里

值得一提的是，第三个问题（async callback）恰好是 Claude Opus 4.8 medium 和 high 找到、而 xhigh 和 max 也漏掉的那一个——这不是 M3 独有的盲点，更像是高推理强度模型的共同弱点。

这三个问题有个共同特点：它们不是会直接造成安全漏洞或数据丢失的致命问题，更多属于「代码质量和健壮性」层面。相比之下，M3 抓住的那些——返回 stored secret 的接口、签名计算用了不同的字节串、没有认证的路由——每一个都是真正的生产事故隐患。

换句话说，M3 的遗漏是有规律的：大 blocker 全捕到了，漏的是更细的代码实现问题。这不是随机的运气，更像是模型在有限的注意力下做了某种隐式的优先级排序。

对大多数审计场景来说，这个取舍是合理的。如果你的目标是「上线前最后一道安全检查」，0.07 美元能找到全部高危问题，剩下的 3 个小问题靠 code review 补；如果你需要一份完整详尽的质量报告，那才是 Claude Opus 4.8 xhigh 的用武之地。

价格墙正在松动

这次测试的结论，放进一个更大的背景里看会更清楚：便宜模型追赶专有模型的速度，远比我们预期的快。

一年前，能做代码审计的模型基本只有 Claude 和 GPT-4 这一档。现在 MiniMax M3 在这个任务上和 Claude Opus 4.8 medium 打平，费用是后者的 1/18。这不是孤例——Gemini Flash、Qwen、DeepSeek 这些模型在各自的基准测试上也在持续逼近顶级专有模型的水平。

差距仍然存在，但它在收窄，而且收窄的速度比价格下降的速度更快。Claude Opus 4.8 xhigh 比 M3 多找了 2 个问题，但贵了将近 30 倍。这 2 个问题值不值 30 倍的价格，取决于你的场景——但这个问题本身在一年前根本不需要问，因为那时候根本没有能与之相比的便宜选项。

Kilo 在报告末尾也点到了这个趋势：

这句话的重量，比测试数据本身更大。

按任务选模型

Kilo 的测试给了一个很实用的决策框架，不用再凭直觉选模型：

大批量或预算有限的审计 → MiniMax M3。0.07 美元，13/17，5 分钟，主要安全问题全覆盖。
快速过一遍，要 Claude → Opus 4.8 medium。1.30 美元，同样 13/17，最快，还额外抓到了 async callback in synchronous transaction 这个高档漏掉的问题。
要最完整的单次报告 → Opus 4.8 xhigh。2.03 美元，15/17，性价比最好的高档选择。
Opus 4.8 max → 基本没有理由用。贵 67%，慢 2 分钟，还不如 xhigh。

背后的逻辑很简单：不同任务对「覆盖率」和「成本」的权衡不一样。一次上线前的快速安全扫描，和一次需要归档留存的完整质量审计，本来就该用不同的模型。问题是过去没有便宜的好选项，只能默认用最贵的。现在选项多了，该想清楚自己真正需要什么。

这也是这次测试真正有价值的地方——不是告诉你哪个模型最好，而是逼着你回答：对你的场景来说，「够用」到底是什么水平。

当然，一个任务、一个代码库不足以说明全部——代码审计只是众多场景里的一种，换成代码生成、重构、调试，结论可能不同。但两件事是清楚的：第一，多个模型在多个基准上都指向同一个方向，便宜模型的追赶不是偶然；第二，别人的测试数据只能给你参考，真正有价值的是拿你自己的任务跑一遍，而不是等别人告诉你答案。

参考资料

[1] Kilo: https://kilo.ai

[2] 发布了一次测试: https://blog.kilo.ai/p/we-audited-the-same-codebase-with

[3] Kilo Code: https://kilocode.ai

来源：https://cloud.tencent.com.cn/developer/article/2692753

大模型

上一篇Harness Engineering从想法到发布的一次完整实践全流程解读 下一篇元数据策略将大数据垃圾场变为数据资产库

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言在 Windows 本地开发环境中，直接安装 RabbitMQ 确实颇为周折：需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是，版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。相比之下，借助 Do

AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年，我们与福建制造企业合作较为频繁，发现一个非常突出的现象：超过80%的企业官网，产品参数仍然存放在PDF或图片中。AI爬虫？根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富，但在AI搜索这一全新战场上，它们几乎处于隐身状态。一、一个正在发生的行业变化 A

AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务，这一服务专为企业与开发者量身打造，定位为AI大模型订阅平台。通过引入Credits作为统一计量单位，将文本生成、图像生成等多模态AI能力纳入单一计费体系，同时无缝兼容主流AI编程工具及智能体（Agent）生态系统。其核心亮点包括：全

AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标，而位置数据的来源本质上是借助设备属性进行上传。换言之，若要让设备上报位置，您需先将其视为一个普通属性进行处理。 1）添加二维位置数据操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据，点击添加，将

AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年，阿里云服务器生态已高度成熟，形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网，还是运营电商平台、进行应用开发，基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维，系统梳理2026年最实用的操作要点，帮助你少走弯路，让网