Cursor模型性价比对比：哪个最值得选？

时间：2026-05-28 18:22

近期，Cursor 正式公开发布了其内部用于评估 AI coding agent 实际工程能力的评测体系——CursorBench 报告。那么，为何需要这样一个专门的测试框架？传统 benchmark 的局限性日益凸显：许多模型本质上是在“死记硬背”，依赖对测试集的记忆获取高分，类似应试教育。而 C

近期，Cursor 正式公开发布了其内部用于评估 AI coding agent 实际工程能力的评测体系——CursorBench 报告。那么，为何需要这样一个专门的测试框架？传统 benchmark 的局限性日益凸显：许多模型本质上是在“死记硬背”，依赖对测试集的记忆获取高分，类似应试教育。而 CursorBench 的核心理念非常清晰——基于真实开发请求进行评测，不只考核正确率，更关注工程能力，甚至将 agent 的行为表现也纳入评分体系。

官方的原话是：

例如这里展示的是 CursorBench 结果图：

横轴：Median tokens（越靠右代表token消耗越低）
纵轴：CursorBench score（分数越高表示表现越好）

比起 SWE-bench，CursorBench 评估的维度更丰富，包含以下几项：

维度	含义
correctness	能否成功完成任务
code quality	代码是否符合行业工程规范
efficiency	token消耗、执行步数、重试次数
interaction	agent行为是否合理高效

有趣的是，Cursor 作为中间平台，反而保持了相对中立——毕竟当前公开的 benchmark 公信力不断下降，测试方向与实际应用场景严重脱节。例如，某些 Terminal-Bench 仍在执行宽泛的解谜式任务（如从棋盘局面找出最优国际象棋走法），这与 coding agent 实际要处理的开发任务毫不相干。

CursorBench 的设计理念与行业新趋势保持一致：采用真实开发任务而非合成任务。具体表现为：

真实代码仓库
真实需求描述
真实 IDE 交互
真实 agent 工作流程

为了丰富任务集，Cursor 还借助内部工具 Cursor Blame，将已提交的代码追溯至生成该代码的 Agent 请求，从而自然地将开发者查询与真实解决方案匹配。这些任务大部分来源于 Cursor 的内部代码库和受控来源，有效降低了模型在训练过程中“见过”这些任务的可能性。此外，任务套件每隔数月就会更新一次，便于跟踪开发者使用 Agent 的演进趋势。

与 SWE-bench 基于 GitHub issue/patch 的自动验证流程相比，CursorBench 采用了 IDE Agent 环境下的多轮交互模式，需要修改多个文件路径，覆盖终端、工具、搜索等场景，同时评估了上下文管理能力。

从初始版本到现在的 CursorBench-3，正确性评估中的问题范围差不多翻了一番，无论代码行数还是平均文件数都显著增加。也就是说，CursorBench-3 的任务涉及的代码行数远远超过 SWE-bench Verified、Pro 或 Multilingual：

当然，代码行数并非衡量任务难度的完美指标，但其增长确实可以反映任务复杂度的提升——例如，处理包含多工作区环境的仓库、分析生产日志、执行长时间运行的实验等场景。

更关键的是，CursorBench 的任务还模拟了开发者与 Agent 交流时常见的模糊性和非规范性特点，相比其他测试更贴近真实开发场景：

如今 AI 编程早已不局限于模型本身，我们一直强调：模型至关重要，但 harness（集成环境）同样关键。当前的 AI 开发本质上是 模型 + 工具 + 规划器 + 记忆 的组合体，单纯讨论模型意义有限。Cursor 自身也在报告中指出：任务复杂度以及上述差异，对基准测试的实际参考价值影响显著。在某些情况下，像 Haiku 这样的模型甚至能达到或超越 GPT-5 的性能，但在 CursorBench 上，结果则呈现出明显分层：

直接看结果：