近期,Cursor 正式公开发布了其内部用于评估 AI coding agent 实际工程能力的评测体系——CursorBench 报告。那么,为何需要这样一个专门的测试框架?传统 benchmark 的局限性日益凸显:许多模型本质上是在“死记硬背”,依赖对测试集的记忆获取高分,类似应试教育。而 CursorBench 的核心理念非常清晰——基于真实开发请求进行评测,不只考核正确率,更关注工程能力,甚至将 agent 的行为表现也纳入评分体系。
官方的原话是:
例如这里展示的是 CursorBench 结果图:
- 横轴:Median tokens(越靠右代表token消耗越低)
- 纵轴:CursorBench score(分数越高表示表现越好)
比起 SWE-bench,CursorBench 评估的维度更丰富,包含以下几项:
| 维度 | 含义 |
|---|---|
| correctness | 能否成功完成任务 |
| code quality | 代码是否符合行业工程规范 |
| efficiency | token消耗、执行步数、重试次数 |
| interaction | agent行为是否合理高效 |
有趣的是,Cursor 作为中间平台,反而保持了相对中立——毕竟当前公开的 benchmark 公信力不断下降,测试方向与实际应用场景严重脱节。例如,某些 Terminal-Bench 仍在执行宽泛的解谜式任务(如从棋盘局面找出最优国际象棋走法),这与 coding agent 实际要处理的开发任务毫不相干。
CursorBench 的设计理念与行业新趋势保持一致:采用真实开发任务而非合成任务。具体表现为:
- 真实代码仓库
- 真实需求描述
- 真实 IDE 交互
- 真实 agent 工作流程
为了丰富任务集,Cursor 还借助内部工具 Cursor Blame,将已提交的代码追溯至生成该代码的 Agent 请求,从而自然地将开发者查询与真实解决方案匹配。这些任务大部分来源于 Cursor 的内部代码库和受控来源,有效降低了模型在训练过程中“见过”这些任务的可能性。此外,任务套件每隔数月就会更新一次,便于跟踪开发者使用 Agent 的演进趋势。
与 SWE-bench 基于 GitHub issue/patch 的自动验证流程相比,CursorBench 采用了 IDE Agent 环境下的多轮交互模式,需要修改多个文件路径,覆盖终端、工具、搜索等场景,同时评估了上下文管理能力。
从初始版本到现在的 CursorBench-3,正确性评估中的问题范围差不多翻了一番,无论代码行数还是平均文件数都显著增加。也就是说,CursorBench-3 的任务涉及的代码行数远远超过 SWE-bench Verified、Pro 或 Multilingual:
当然,代码行数并非衡量任务难度的完美指标,但其增长确实可以反映任务复杂度的提升——例如,处理包含多工作区环境的仓库、分析生产日志、执行长时间运行的实验等场景。
更关键的是,CursorBench 的任务还模拟了开发者与 Agent 交流时常见的模糊性和非规范性特点,相比其他测试更贴近真实开发场景:
如今 AI 编程早已不局限于模型本身,我们一直强调:模型至关重要,但 harness(集成环境)同样关键。当前的 AI 开发本质上是 模型 + 工具 + 规划器 + 记忆 的组合体,单纯讨论模型意义有限。Cursor 自身也在报告中指出:任务复杂度以及上述差异,对基准测试的实际参考价值影响显著。在某些情况下,像 Haiku 这样的模型甚至能达到或超越 GPT-5 的性能,但在 CursorBench 上,结果则呈现出明显分层:
直接看结果:
- 左边:Online evals(真实用户在线评估指标,数值越低表示性能越好)
- 右边:CursorBench(内部基准测试,分数越高表示表现越优)
基于这一结果,Cursor 验证了 CursorBench 排名与真实使用排名高度相关,趋势基本一致——即在线表现越出色的模型,其 CursorBench 得分也越高。
当然,由于属于内部流程,为避免数据污染,CursorBench 完全未公开,是一个闭源测试项目,外界无法进行复现和验证。另一方面,因其任务来源为内部,也存在过拟合的风险——例如,使用 Cursor 训练的模型再通过 Cursor 评测,难免有“自测自评”之嫌。
因此,其价值更多体现在:它证明了在 Cursor 环境下哪款模型更好用、更具性价比。这并不代表这些模型在其他场景下的泛化能力。还是那句话,harness(集成环境)至关重要——例如,在 opencode 中使用 Claude,可能无法真正体验出 Claude 的全部实力。
如果你仍在使用 Cursor,那么这份报告的参考价值极高。从性价比角度出发,codex-5.3 medium 是一个值得关注的选项。
