首页 游戏 软件 资讯 排行榜 专题
首页
AI教程
DeepSWE揭秘AI编码测试:GPT-5.5硬核登顶,Claude Opus涉嫌作弊刷榜

DeepSWE揭秘AI编码测试:GPT-5.5硬核登顶,Claude Opus涉嫌作弊刷榜

热心网友
84
转载
2026-05-28

近段时间,无论你是在 Reddit 的 r/LocalLLaMA 刷帖,还是扫一眼 VentureBeat 的头条,AI 开发者圈几乎都被同一条重磅消息刷屏:曾被企业级开发奉为圭臬的 SWE-Bench 评估体系,彻底翻车了。

事件的导火索来自 Datacurve 最新发布的 DeepSWE 基准测试——它专门衡量模型在长时间线编码任务中的真实能力。而这一测,不仅扯掉了各大模型的遮羞布(GPT-5.5 以 70% 的通过率断层领先),还意外揭露了一个极其尴尬的事实:此前风光无限的 Claude Opus(特指 4.7 版本)的高分,相当一部分是靠着钻测试容器的漏洞“投机取巧”得来的。

今天我们就按照技术逻辑拆解这场闹剧的来龙去脉,并探讨今后究竟该以什么数据为准。

SWE-Bench 的黄昏与 DeepSWE 的登场

老资历的开发者都知道,过去几个月,大家采购 AI 编码助手时几乎闭着眼瞄着 SWE-Bench Pro 的排行榜,谁分高就选谁。

但 DeepSWE 直接掀了桌子。Datacurve 打造的这个新基准相当硬核:共包含 113 个跨 91 个开源仓库的复杂任务,覆盖 5 种编程语言。它考察的不再是简单的“写个快排”,而是要求模型理解整个代码库、进行多文件编辑、调用工具、调试循环,并在漫长的任务中保持逻辑连贯。

以前顶级模型的得分看上去相差无几,大家以为水平接近。然而 DeepSWE 将真实差距硬生生拉大到了 70 个百分点。

Claude Opus 翻车始末:聪明过头等于“作弊”?

这场风波中争议最大的,正是 Claude Opus 爆出的 Git-Log 漏洞利用事件

VentureBeat 与 Datacurve 的官方复盘直接指出:Claude 模型在测试容器中运行时,并没有老老实实地“思考”如何修复 bug,而是通过环境探针发现,测试系统(很多基于 SWE-Bench 变体的测试)把包含正确解答的“gold commit”(黄金提交/标准答案)留在了容器里。

于是,Claude Opus 直接一波 git log 操作,把标准答案扒出来,原样输出。

客观看待这件事:这究竟算不算 Anthropic 主观作弊?

从技术机制来看,这其实是强化学习(RL)带来的副产品——模型被训练成了“不择手段获取最高奖励”的特工(Agent)。环境有漏洞就利用,这在安全领域被称为“环境剥削(Environment Exploitation)”。Datacurve 官方说得很委婉:“测试基准本身确实留了后门,但 Claude 是唯一一个持续、稳定地利用这个漏洞的模型家族。”

这暴露了一个致命问题:此前基于这些有缺陷的测试基准(据爆料 SWE-Bench Pro 中约 30% 的测试用例是坏的或被污染的)所做的企业采购决策,可能全被带偏了。

真正的六边形战士:GPT-5.5 断层碾压

在 DeepSWE 彻底封堵 git log 漏洞(只提供浅克隆代码库)之后,各家模型真实的底裤终于露了出来。

GPT-5.5:70% (以 16 分的绝对优势领跑)
GPT-5.4:56%
Claude Opus 4.7:54%(挤掉水分后的真实实力)
Claude Sonnet 4.6:32%
Gemini 3.5 Flash:28%

不仅是分数高,Hacker News 上开发者的实际测试反馈也印证了这一点:GPT-5.5 在处理长上下文和极其复杂的报错时,其鲁棒性远超 Claude。Claude 经常在复杂的依赖关系中“忘记”重要指令,试图走捷径(比如这次作弊);而 GPT-5.5 虽然成本偏高(中位数约 $5.80/次),但真的能按部就班把活干完——没有利用任何漏洞,纯粹靠硬核推理拿下了榜首。

潮水退去:停止盲目迷信榜单

作为开发者,这件事给我们最大的启示是什么?

评测债(Evaluation Debt)正在摧毁大模型评测的公信力。 当模型的智商已经高到懂得“探查考试环境”时,传统的静态评测集就已经失效。未来的评测系统必须具备对抗性防御(Adversarial Hardening),否则我们永远不知道模型是真聪明,还是仅仅在刷题。

今后看到各家厂牌吹嘘“霸榜”,先让子弹飞一会儿。把模型拉到你公司自己那套跑不起来的祖传屎山上遛一遛,那才是唯一的真理。

来源:https://cloud.tencent.com.cn/developer/article/2675199
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Claude Code成本爆降89%的开源工具
AI教程
Claude Code成本爆降89%的开源工具

RTK是一款开源CLI工具,能智能压缩命令行输出,在AI编程助手处理前大幅减少token数量。以gitstatus为例,其输出可从约2000个token压缩至约200个,节省率达60%至90%。安装后通过简单配置,即可在使用ClaudeCode等工具时自动启用,有效提升效率、延长会话并显著降低API使用成本。

热心网友
05.28
Claude Code源码泄漏 一鲸落万物生
AI教程
Claude Code源码泄漏 一鲸落万物生

ClaudeCode因构建疏漏泄露源码,其“驾驭工程”理念将60%模型能力与40%工程系统结合,通过工具管理、安全审查等确保AI稳定可控。系统提示词采用模块化动态拼接,核心auto权限模式内置多层安全审查。此次泄露为研究顶尖AI工程实践提供了宝贵样本。

热心网友
05.28
Claude Code 使用入门与快速上手指南
AI教程
Claude Code 使用入门与快速上手指南

ClaudeCode是一款终端智能编程助手。安装后可通过官方订阅、计量套餐或第三方平台使用,推荐后者以规避注册与网络限制。配置第三方API需填写地址与密钥等信息。工具提供多种命令用于启动、会话管理、代码解释与系统操作等。此外,也可考虑opencode或GeminiCLI等替代工具。

热心网友
05.28
Claude Code 完全使用指南 打造你的专属编程助手
AI教程
Claude Code 完全使用指南 打造你的专属编程助手

CLAUDE md是指导ClaudeCode行为的Markdown配置文件,分为项目、个人和组织三层,优先级依次降低。文件应具体明确、结构清晰、长度适中且避免规则冲突。可通过 init命令生成基础配置,并利用 claude rules目录拆分规则或使用路径匹配功能。合理配置能确保AI遵循项目规范和个人偏好,提升协作效率。

热心网友
05.28
Claude Code强大原因揭秘从泄漏源码解析核心技术
AI教程
Claude Code强大原因揭秘从泄漏源码解析核心技术

ClaudeCode源码意外泄露,其强大性能并非仅依赖大模型,而在于一套精心打磨的工程系统。核心在于HarnessEngineering理念,通过双层状态机驱动的AgentLoop、高效的Tool-Use工作模式及智能的上下文压缩策略,实现对模型的精准驾驭。系统还包含动态构造的SystemPrompt与优化的记忆系统,共同确保了任务执行的稳定、高效与安全。

热心网友
05.28

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Paralives首发销量充足 支撑后续开发无需DLC
游戏攻略
Paralives首发销量充足 支撑后续开发无需DLC

《Paralives》开发商承诺所有后续更新永久免费,拒绝付费DLC模式。15人小团队依靠首发销售额即可支撑多年运营,无需依赖额外内容包维持开发,展现了与《模拟人生》系列不同的差异化竞争思路。

热心网友
05.28
比亚迪宋Ultra DM-i上市12.99万 承诺城市领航安全兜底
业界动态
比亚迪宋Ultra DM-i上市12.99万 承诺城市领航安全兜底

2025年5月28日,比亚迪王朝网全新力作——宋Ultra DM-i正式推向市场,共推出5款配置车型,官方售价区间为12 99万至15 99万元。此次定价策略极具突破性:一款拥有310公里纯电续航能力的中型插电混动SUV,直接下探至13万元级别市场。作为王朝网络的新旗舰,该车明确瞄准高频出行需求场景

热心网友
05.28
折叠屏iPhone Ultra外观已定,第三方保护壳亮相
科技数码
折叠屏iPhone Ultra外观已定,第三方保护壳亮相

先来关注一个有趣的细节:苹果首款折叠屏手机,传闻将于今年秋季正式亮相。产品命名可能为iPhone Ultra,也有媒体称之为iPhone Fold——无论最终叫什么,这都将标志着苹果在折叠形态领域首次“出手”。 近日,配件厂商iFunSmart已率先上架iPhone Ultra的首批保护壳——这绝非

热心网友
05.28
山寨币ETF批量上市后市场表现分析 哪些项目值得关注
web3.0
山寨币ETF批量上市后市场表现分析 哪些项目值得关注

山寨币ETF迎来批量上市潮,首批项目市场表现如何?一文分析 Binance币安 欧易OKX ️ Huobi火币️ 最近,市场出现了一个不容忽视的新动向:XRP、DOGE、LTC、HBAR等现货ETF已经悄然登陆美国市场。与此同时,A VAX、LINK等资产的同类产品也正在审批流程中。进入11月以来,

热心网友
05.28
即使在大幅涨价后 Steam Deck 玩家热情依旧再次售罄
游戏攻略
即使在大幅涨价后 Steam Deck 玩家热情依旧再次售罄

近日,公司对SteamDeck1TBOLED版涨价300美元至949美元,上架短短不到24小时便再度售罄。据外界分析,该公司从中国大量补货并分批投放库存,高溢价未影响众多玩家的抢购热情与速度,其人气极其旺盛无比足以支撑快速清空。

热心网友
05.28