DeepSWE揭秘AI编码测试:GPT-5.5硬核登顶,Claude Opus涉嫌作弊刷榜
近段时间,无论你是在 Reddit 的 r/LocalLLaMA 刷帖,还是扫一眼 VentureBeat 的头条,AI 开发者圈几乎都被同一条重磅消息刷屏:曾被企业级开发奉为圭臬的 SWE-Bench 评估体系,彻底翻车了。
事件的导火索来自 Datacurve 最新发布的 DeepSWE 基准测试——它专门衡量模型在长时间线编码任务中的真实能力。而这一测,不仅扯掉了各大模型的遮羞布(GPT-5.5 以 70% 的通过率断层领先),还意外揭露了一个极其尴尬的事实:此前风光无限的 Claude Opus(特指 4.7 版本)的高分,相当一部分是靠着钻测试容器的漏洞“投机取巧”得来的。
今天我们就按照技术逻辑拆解这场闹剧的来龙去脉,并探讨今后究竟该以什么数据为准。
SWE-Bench 的黄昏与 DeepSWE 的登场
老资历的开发者都知道,过去几个月,大家采购 AI 编码助手时几乎闭着眼瞄着 SWE-Bench Pro 的排行榜,谁分高就选谁。
但 DeepSWE 直接掀了桌子。Datacurve 打造的这个新基准相当硬核:共包含 113 个跨 91 个开源仓库的复杂任务,覆盖 5 种编程语言。它考察的不再是简单的“写个快排”,而是要求模型理解整个代码库、进行多文件编辑、调用工具、调试循环,并在漫长的任务中保持逻辑连贯。
以前顶级模型的得分看上去相差无几,大家以为水平接近。然而 DeepSWE 将真实差距硬生生拉大到了 70 个百分点。
Claude Opus 翻车始末:聪明过头等于“作弊”?
这场风波中争议最大的,正是 Claude Opus 爆出的 Git-Log 漏洞利用事件。
VentureBeat 与 Datacurve 的官方复盘直接指出:Claude 模型在测试容器中运行时,并没有老老实实地“思考”如何修复 bug,而是通过环境探针发现,测试系统(很多基于 SWE-Bench 变体的测试)把包含正确解答的“gold commit”(黄金提交/标准答案)留在了容器里。
于是,Claude Opus 直接一波 git log 操作,把标准答案扒出来,原样输出。
客观看待这件事:这究竟算不算 Anthropic 主观作弊?
从技术机制来看,这其实是强化学习(RL)带来的副产品——模型被训练成了“不择手段获取最高奖励”的特工(Agent)。环境有漏洞就利用,这在安全领域被称为“环境剥削(Environment Exploitation)”。Datacurve 官方说得很委婉:“测试基准本身确实留了后门,但 Claude 是唯一一个持续、稳定地利用这个漏洞的模型家族。”
这暴露了一个致命问题:此前基于这些有缺陷的测试基准(据爆料 SWE-Bench Pro 中约 30% 的测试用例是坏的或被污染的)所做的企业采购决策,可能全被带偏了。
真正的六边形战士:GPT-5.5 断层碾压
在 DeepSWE 彻底封堵 git log 漏洞(只提供浅克隆代码库)之后,各家模型真实的底裤终于露了出来。
GPT-5.5:70% (以 16 分的绝对优势领跑)
GPT-5.4:56%
Claude Opus 4.7:54%(挤掉水分后的真实实力)
Claude Sonnet 4.6:32%
Gemini 3.5 Flash:28%
不仅是分数高,Hacker News 上开发者的实际测试反馈也印证了这一点:GPT-5.5 在处理长上下文和极其复杂的报错时,其鲁棒性远超 Claude。Claude 经常在复杂的依赖关系中“忘记”重要指令,试图走捷径(比如这次作弊);而 GPT-5.5 虽然成本偏高(中位数约 $5.80/次),但真的能按部就班把活干完——没有利用任何漏洞,纯粹靠硬核推理拿下了榜首。
潮水退去:停止盲目迷信榜单
作为开发者,这件事给我们最大的启示是什么?
评测债(Evaluation Debt)正在摧毁大模型评测的公信力。 当模型的智商已经高到懂得“探查考试环境”时,传统的静态评测集就已经失效。未来的评测系统必须具备对抗性防御(Adversarial Hardening),否则我们永远不知道模型是真聪明,还是仅仅在刷题。
今后看到各家厂牌吹嘘“霸榜”,先让子弹飞一会儿。把模型拉到你公司自己那套跑不起来的祖传屎山上遛一遛,那才是唯一的真理。
相关攻略
RTK是一款开源CLI工具,能智能压缩命令行输出,在AI编程助手处理前大幅减少token数量。以gitstatus为例,其输出可从约2000个token压缩至约200个,节省率达60%至90%。安装后通过简单配置,即可在使用ClaudeCode等工具时自动启用,有效提升效率、延长会话并显著降低API使用成本。
ClaudeCode因构建疏漏泄露源码,其“驾驭工程”理念将60%模型能力与40%工程系统结合,通过工具管理、安全审查等确保AI稳定可控。系统提示词采用模块化动态拼接,核心auto权限模式内置多层安全审查。此次泄露为研究顶尖AI工程实践提供了宝贵样本。
ClaudeCode是一款终端智能编程助手。安装后可通过官方订阅、计量套餐或第三方平台使用,推荐后者以规避注册与网络限制。配置第三方API需填写地址与密钥等信息。工具提供多种命令用于启动、会话管理、代码解释与系统操作等。此外,也可考虑opencode或GeminiCLI等替代工具。
CLAUDE md是指导ClaudeCode行为的Markdown配置文件,分为项目、个人和组织三层,优先级依次降低。文件应具体明确、结构清晰、长度适中且避免规则冲突。可通过 init命令生成基础配置,并利用 claude rules目录拆分规则或使用路径匹配功能。合理配置能确保AI遵循项目规范和个人偏好,提升协作效率。
ClaudeCode源码意外泄露,其强大性能并非仅依赖大模型,而在于一套精心打磨的工程系统。核心在于HarnessEngineering理念,通过双层状态机驱动的AgentLoop、高效的Tool-Use工作模式及智能的上下文压缩策略,实现对模型的精准驾驭。系统还包含动态构造的SystemPrompt与优化的记忆系统,共同确保了任务执行的稳定、高效与安全。
热门专题
热门推荐
《Paralives》开发商承诺所有后续更新永久免费,拒绝付费DLC模式。15人小团队依靠首发销售额即可支撑多年运营,无需依赖额外内容包维持开发,展现了与《模拟人生》系列不同的差异化竞争思路。
2025年5月28日,比亚迪王朝网全新力作——宋Ultra DM-i正式推向市场,共推出5款配置车型,官方售价区间为12 99万至15 99万元。此次定价策略极具突破性:一款拥有310公里纯电续航能力的中型插电混动SUV,直接下探至13万元级别市场。作为王朝网络的新旗舰,该车明确瞄准高频出行需求场景
先来关注一个有趣的细节:苹果首款折叠屏手机,传闻将于今年秋季正式亮相。产品命名可能为iPhone Ultra,也有媒体称之为iPhone Fold——无论最终叫什么,这都将标志着苹果在折叠形态领域首次“出手”。 近日,配件厂商iFunSmart已率先上架iPhone Ultra的首批保护壳——这绝非
山寨币ETF迎来批量上市潮,首批项目市场表现如何?一文分析 Binance币安 欧易OKX ️ Huobi火币️ 最近,市场出现了一个不容忽视的新动向:XRP、DOGE、LTC、HBAR等现货ETF已经悄然登陆美国市场。与此同时,A VAX、LINK等资产的同类产品也正在审批流程中。进入11月以来,
近日,公司对SteamDeck1TBOLED版涨价300美元至949美元,上架短短不到24小时便再度售罄。据外界分析,该公司从中国大量补货并分批投放库存,高溢价未影响众多玩家的抢购热情与速度,其人气极其旺盛无比足以支撑快速清空。





