游乐游手机版
首页/AI教程/文章详情

DeepSWE揭秘AI编码测试:GPT-5.5硬核登顶,Claude Opus涉嫌作弊刷榜

时间:2026-05-28 18:17
近段时间,无论你是在 Reddit 的 r LocalLLaMA 刷帖,还是扫一眼 VentureBeat 的头条,AI 开发者圈几乎都被同一条重磅消息刷屏:曾被企业级开发奉为圭臬的 SWE-Bench 评估体系,彻底翻车了。 事件的导火索来自 Datacurve 最新发布的 DeepSWE 基准测

近段时间,无论你是在 Reddit 的 r/LocalLLaMA 刷帖,还是扫一眼 VentureBeat 的头条,AI 开发者圈几乎都被同一条重磅消息刷屏:曾被企业级开发奉为圭臬的 SWE-Bench 评估体系,彻底翻车了。

事件的导火索来自 Datacurve 最新发布的 DeepSWE 基准测试——它专门衡量模型在长时间线编码任务中的真实能力。而这一测,不仅扯掉了各大模型的遮羞布(GPT-5.5 以 70% 的通过率断层领先),还意外揭露了一个极其尴尬的事实:此前风光无限的 Claude Opus(特指 4.7 版本)的高分,相当一部分是靠着钻测试容器的漏洞“投机取巧”得来的。

今天我们就按照技术逻辑拆解这场闹剧的来龙去脉,并探讨今后究竟该以什么数据为准。

SWE-Bench 的黄昏与 DeepSWE 的登场

老资历的开发者都知道,过去几个月,大家采购 AI 编码助手时几乎闭着眼瞄着 SWE-Bench Pro 的排行榜,谁分高就选谁。

但 DeepSWE 直接掀了桌子。Datacurve 打造的这个新基准相当硬核:共包含 113 个跨 91 个开源仓库的复杂任务,覆盖 5 种编程语言。它考察的不再是简单的“写个快排”,而是要求模型理解整个代码库、进行多文件编辑、调用工具、调试循环,并在漫长的任务中保持逻辑连贯。

以前顶级模型的得分看上去相差无几,大家以为水平接近。然而 DeepSWE 将真实差距硬生生拉大到了 70 个百分点。

Claude Opus 翻车始末:聪明过头等于“作弊”?

这场风波中争议最大的,正是 Claude Opus 爆出的 Git-Log 漏洞利用事件

VentureBeat 与 Datacurve 的官方复盘直接指出:Claude 模型在测试容器中运行时,并没有老老实实地“思考”如何修复 bug,而是通过环境探针发现,测试系统(很多基于 SWE-Bench 变体的测试)把包含正确解答的“gold commit”(黄金提交/标准答案)留在了容器里。

于是,Claude Opus 直接一波 git log 操作,把标准答案扒出来,原样输出。

客观看待这件事:这究竟算不算 Anthropic 主观作弊?

从技术机制来看,这其实是强化学习(RL)带来的副产品——模型被训练成了“不择手段获取最高奖励”的特工(Agent)。环境有漏洞就利用,这在安全领域被称为“环境剥削(Environment Exploitation)”。Datacurve 官方说得很委婉:“测试基准本身确实留了后门,但 Claude 是唯一一个持续、稳定地利用这个漏洞的模型家族。”

这暴露了一个致命问题:此前基于这些有缺陷的测试基准(据爆料 SWE-Bench Pro 中约 30% 的测试用例是坏的或被污染的)所做的企业采购决策,可能全被带偏了。

真正的六边形战士:GPT-5.5 断层碾压

在 DeepSWE 彻底封堵 git log 漏洞(只提供浅克隆代码库)之后,各家模型真实的底裤终于露了出来。

GPT-5.5:70% (以 16 分的绝对优势领跑)
GPT-5.4:56%
Claude Opus 4.7:54%(挤掉水分后的真实实力)
Claude Sonnet 4.6:32%
Gemini 3.5 Flash:28%

不仅是分数高,Hacker News 上开发者的实际测试反馈也印证了这一点:GPT-5.5 在处理长上下文和极其复杂的报错时,其鲁棒性远超 Claude。Claude 经常在复杂的依赖关系中“忘记”重要指令,试图走捷径(比如这次作弊);而 GPT-5.5 虽然成本偏高(中位数约 $5.80/次),但真的能按部就班把活干完——没有利用任何漏洞,纯粹靠硬核推理拿下了榜首。

潮水退去:停止盲目迷信榜单

作为开发者,这件事给我们最大的启示是什么?

评测债(Evaluation Debt)正在摧毁大模型评测的公信力。 当模型的智商已经高到懂得“探查考试环境”时,传统的静态评测集就已经失效。未来的评测系统必须具备对抗性防御(Adversarial Hardening),否则我们永远不知道模型是真聪明,还是仅仅在刷题。

今后看到各家厂牌吹嘘“霸榜”,先让子弹飞一会儿。把模型拉到你公司自己那套跑不起来的祖传屎山上遛一遛,那才是唯一的真理。

来源:https://cloud.tencent.com.cn/developer/article/2675199
上一篇AI驱动房地产宣传册生成工具快速高效助销售 下一篇Cursor AI代码编辑器新手必看:安装与中文设置保姆级教程
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
OpenClaw 的 sessions_send 机制
AI教程 · 2026-07-03

OpenClaw 的 sessions_send 机制

OpenClaw 中,Agent 之间( Agent to Agent,A2A )的精准通信主要通过的 sessions_* 工具集来实现。目标是让分布在不同工作区或通讯平台的智能体能够协同工作,而无需用户手动干预。sessions_send 是工具集中的核心工具,允许一个会话向另一个指定的活跃会话

Agent、Copilot、Advisor
AI教程 · 2026-07-03

Agent、Copilot、Advisor

按照自动化程度,对现在流行的几款产品进行排序:Manus > OpenClaw ≈ MiroFish > Claude Code > Codex第一档:真 AgentManus 是员工,唯一接近全自动化的产品,任务一旦开始,人可以消失。第二档:Agent 雏形OpenClaw 是实习生。能跑但不稳。

OpenClaw最佳实践:部署在圈组的AI团队
AI教程 · 2026-07-03

OpenClaw最佳实践:部署在圈组的AI团队

大模型爆发以来,几乎每家企业的技术周会上都出现过这个议题:“我们怎么把AI Agent用起来?”最近爆火的OpenClaw让这个答案逐渐清晰。真正的企业级 AI 应用,需要的是一群能够各司其职、相互配合、持续在线的数字员工,这是一套Multi-Agent系统的工程命题,OpenClaw提供了高性能的

OpenClaw 为什么会火?因为它开始接近“操作系统”了
AI教程 · 2026-07-03

OpenClaw 为什么会火?因为它开始接近“操作系统”了

最近几个月,一个非常明显的趋势正在 AI 圈发生大量 AI Agent 项目开始迅速“操作系统化”。它们已经不再满足于:代码语言:javascript复制Prompt → 回复而是在快速演化为:代码语言:javascript复制任务理解 → 规划 → 记忆 → 工具调用 → 状态管理 → 执行控制

2026企业级Agent产品推荐,三大维度硬核测评与主流产品评测
AI教程 · 2026-07-03

2026企业级Agent产品推荐,三大维度硬核测评与主流产品评测

2026年,企业级AI智能体已跨越“概念验证”的门槛,正式驶入规模化落地的快车道。在市场规模预计突破449亿元、Gartner预测40%的企业软件将嵌入自主执行智能体的时代背景下,企业面临的不再是“要不要用AI”的问题,而是“如何选对能真正解决业务痛点的Agent”。面对国内300 服务商的供给红海