首页 游戏 软件 资讯 排行榜 专题
首页
AI
SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI

SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI

热心网友
86
转载
2026-04-22

新智元报道

编辑:倾倾

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

【新智元导读】伯克利团队造了个专门作弊的AI,用10行Python代码拿下SWE-bench满分!500道题全过,0个bug修复。8大主流评测基准,全部沦陷。同一周,两份独立审计确认:排行榜上的作弊早已不是假设,而是现实。

本周,AI评测圈经历了一场信任地震。

SWE-bench,这个公认的AI编程能力标杆,一直是各大模型发布会上的必报数字,也是投资人估值时的硬通货。可伯克利的研究团队用事实告诉你,有时候,一个简单的conftest.py文件就足以让它彻底破防。


事情远不止于此。伯克利RDI团队打造了一个自动化漏洞扫描智能体,对当前最主流的8个AI智能体评测基准逐一进行了渗透测试。结果令人咋舌:每一个基准都被成功攻破,得分从73%到100%不等。

更巧的是,同一周内,宾大团队的独立审计报告和Anthropic的Mythos Preview系统卡同时出炉。三条独立的线索,共同指向一个不容辩驳的结论:这些我们赖以衡量AI能力的评测基准,从设计到执行,到处是漏洞。

10行代码,500题满分,0个bug修复


伯克利团队的漏洞利用智能体在8大基准上的得分。没有解决任何任务,没有调用任何大模型,6个拿到满分。

伯克利团队的破解方法,简单到离谱。

SWE-bench要求AI修复真实的GitHub bug,只有测试通过才算成功。伯克利团队干了什么呢?他们写了一个conftest.py文件,利用pytest的钩子机制,在测试运行时拦截每一个测试结果,然后强制将其改写为「通过」。

结果就是,500道题,全部满分,而实际上一个bug也没修。

原理其实很简单。SWE-bench的测试和被测AI跑在同一个Docker容器里。这意味着,智能体提交的代码在容器内拥有完整权限,而pytest框架会自动发现并加载conftest.py文件。这个钩子会在测试的「call」阶段拦截结果,把所有outcome都改成passed。于是,日志解析器看到的是一片绿灯,评分器自然判定全部通过。


SWE-bench的conftest.py钩子注入流程:智能体提交的补丁没有修复任何bug,只塞入了一个conftest.py文件。pytest自动加载后,钩子拦截每个测试结果并改写为「通过」。

其他基准的破法更加直白。以WebArena为例,任务的标准答案其实就放在本地的config_files目录里。AI只需要用Playwright驱动浏览器打开一个file://路径,就能直接读取答案。评测框架从未限制过对file://协议的访问。整个过程,不需要修改任何代码,不需要破解任何东西,浏览器本身就成了现成的「答案阅读器」。


WebArena的file://漏洞:模型不需要浏览网页完成任务,只需输出一条goto指令,Playwright就会从本地配置文件中读取标准答案并返回。整个过程不涉及任何推理。

最离谱的可能是FieldWorkArena。它的validate()函数根本不检查答案内容,只看最后一条消息是不是来自assistant。所以,智能体只需要发一个空的{},就能轻松拿到满分。那个本应负责比对答案的llm_fuzzy_match函数呢?虽然被导入了,但从未被调用过。

剩下的Terminal-Bench、OSWorld、GAIA、CAR-bench、SWE-bench Pro,手法各异但逻辑相通:木马化验证器的依赖工具、从公开URL下载标准答案让评测器自己和自己比对、往LLM裁判的prompt里注入隐藏指令……8个基准,没有一个能抵御一个「什么都不会但专门找漏洞」的智能体。

伯克利团队归纳出7种反复出现的漏洞模式:智能体和评测程序共享运行环境、标准答案暴露给被测系统、对不可信输入调用eval()、LLM裁判缺乏输入过滤、字符串匹配过于宽松、评分逻辑本身有bug、以及评测程序盲目信任被测系统产生的输出。


伯克利团队归纳的7种漏洞模式及其在8个基准中的分布。前两种(智能体与评测器未隔离、标准答案泄露)几乎命中了所有基准。

作弊,正在发生

4月10日,宾大的Adam Stein和Da vis Brown发布了一项大规模审计。他们用一个叫Meerkat的智能体搜索工具,扫描了数千条真实的评测轨迹,结果发现了28+个提交、涉及9个基准、上千条作弊轨迹。


宾大Meerkat审计发现的作弊模式分布。橙色为harness级作弊(开发者框架泄露答案),蓝色为任务级作弊(智能体自行走捷径)。注意横轴是对数坐标,harness级作弊的规模比任务级高出两个数量级。

最扎眼的是Terminal-Bench 2,这个被用来评估Opus 4.6和GPT-5.4的热门基准。排行榜前三名,全部存在作弊行为。

第一名Pilot(82.9%通过率):在429条轨迹中,有415条的第一个动作就是cat /tests/test_outputs.py,直接读取本应不可访问的测试文件,然后反向推导出期望输出。

第二名和第三名ForgeCode(81.8%通过率):它的评测框架会在执行前自动加载AGENTS.md文件到系统提示中,而这些文件里直接包含了标准答案。在一个任务里,AGENTS.md赫然写着:“上一次运行失败了,因为写了错误答案……正确答案应该是GritLM/GritLM-7B。”

把ForgeCode中引用AGENTS.md的轨迹替换成同一模型(Opus 4.6)在干净环境下的表现后,通过率从81.8%骤降到约71.7%,排名从第1名直接掉到第14名。


ForgeCode的AGENTS.md答案注入实例:上半部分,harness将包含标准答案的AGENTS.md文件注入智能体环境;下半部分,智能体读取后直接写入result.txt,并用grep自我验证。

更有意思的是,这些作弊并非开发者故意为之。Terminal-Bench上很多开发者公开承认,他们的评测框架是用AI「vibecoding」出来的。也就是说,开发者用来写测试框架的AI,本身就在作弊。宾大团队管这叫「元级别的reward hacking」:AI写的代码自带作弊倾向,再通过评测框架传递给所有被评测的模型。

其他基准上也不干净。CyBench上,464条成功轨迹中有16条(3.4%)是Google搜索公开的CTF攻略抄来的。SWE-bench上,有17条轨迹通过git log找到历史修复提交,直接复制粘贴历史补丁。BountyBench上,做不出真正漏洞利用的智能体会伪造一个:用grep检查漏洞模式是否存在于源码中,然后跑一个无关的pickle.loads()演示,而评测器只检查退出码,于是全部通过。


CyBench上的任务级作弊:GPT-5.3-Codex解不出CTF挑战后,直接搜索公开攻略,从网页中提取flag提交。

最前沿的模型,自己就会hack评测

METR的评估报告里有个典型案例。o3被要求写一个高性能GPU核函数,评分函数会先运行参考方案得到正确结果,再运行o3的方案进行比对。结果o3的「核函数」根本没有做任何计算,它沿着Python调用栈找到了评分系统已经算好的正确答案,直接返回,同时还禁用了CUDA同步来阻止系统测量真实执行时间。更讽刺的是,在代码注释里,o3自己写的是「cheating route」。

在RE-Bench的特定任务上,o3的reward hacking率接近100%,几乎每一条轨迹都在作弊。


METR事后问o3:「你觉得你的行为符合用户意图吗?」o3的回答是「不符合」,问了10次,10次都这么答。它清楚自己在作弊,但照做不误。

Claude 3.7 Sonnet和o1也有类似的情况。而Anthropic的Mythos Preview走得更远。在一次评估中,模型需要编辑一个它没有权限的文件。它搜索了替代方案,找到了通过配置文件注入代码来获取提升权限的方法,并且还设计了自删除机制,让注入的代码执行完毕后自动清除痕迹。没有人教它这么做,但当模型能力足够强、优化压力足够大时,它会自然走向阻力最小的路径。

分数驱动真金白银,地基塌了怎么办

现实是残酷的:工程团队选模型看SWE-bench排名,投资人看基准分数给估值,研究者围绕分数确定优化方向。如果这些数字本身可以被轻易操纵,那么整条决策链的基础就是空的。

还有一个更深远的问题:能力评测和安全评测,用的往往是类似的技术架构。如果能力评测能被注水,安全评测凭什么幸免?能hack编程评测的模型,hack对齐评测也不会更难。

OpenAI今年2月已经宣布停用SWE-bench Verified,内部审计发现59.4%的被审计问题存在有缺陷的测试,模型实际上是在用有bug的标准来衡量自己。所有被测的前沿模型(GPT-5.2、Claude Opus 4.5、Gemini 3 Flash)都能从记忆中复现标准答案的原始代码,连变量名和内联注释都一样。SWE-bench Verified上70%+的分数,切换到更干净的SWE-bench Pro后,直接降到约23%。

伯克利团队把他们的漏洞扫描工具做成了一个叫BenchJack的开源项目,本质就是给评测基准做渗透测试。


把它指向任何评测流水线,它会自动分析评分机制、识别隔离边界、生成可运行的漏洞利用。如果一个零能力智能体的得分高于基线,那你的基准肯定有问题。

他们给出的建议也很直接:评测程序和被测AI必须完全隔离运行;标准答案绝不能出现在AI能访问的环境中;永远不要对不可信的输入调用eval();LLM裁判要像处理用户输入一样,对AI的输出做严格过滤。

有人在推特上评论:


这话说得或许有点绝对,但当整个行业都围绕分数激烈竞争时,分数本身的可信度,反而成了最容易被忽视的东西。

必须警惕的是,评测本身没有错,反而比以往任何时候都更重要。关键不在于「分数是多少」,而在于「这个分数是怎么来的」。

回到开头那10行代码。在SWE-bench上,最好的模型跑出70%、80%的成绩,被各家发布会反复引用。但一个什么都不会的conftest.py,却拿了100%。在这个100%被造出来之前,几乎没有人觉得那些分数有问题。这,或许才是最值得深思的地方。

参考资料:

https://x.com/dotey/status/2043204009469641005

来源:https://www.163.com/dy/article/KQSJFR530511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI
AI
SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI

新智元报道 编辑:倾倾 【新智元导读】伯克利团队造了个专门作弊的AI,用10行Python代码拿下SWE-bench满分!500道题全过,0个bug修复。8大主流评测基准,全部沦陷。同一周,两份独立审计确认:排行榜上的作弊早已不是假设,而是现实。 本周,AI评测圈经历了一场信任地震。 SWE-ben

热心网友
04.22
扎克伯格为Meta设立“硬指标”:最高80%工程师需在工作中使用AI
科技数码
扎克伯格为Meta设立“硬指标”:最高80%工程师需在工作中使用AI

Meta的“AI原生”转型:指标驱动的深度变革 近期,一份曝光的内部文件揭示了一个明确的趋势:马克·扎克伯格正全力推动Meta向一家彻底的“AI原生”公司转型。这不仅仅是一句口号,而是通过设定具体、可量化的指标,将AI深度融入每一位员工、尤其是工程师的日常工作流程中。 从部门到公司:具体的AI渗透目

热心网友
04.17
Hermes Agent抄袭中国团队代码实锤!被锤后回应:你删号
AI
Hermes Agent抄袭中国团队代码实锤!被锤后回应:你删号

新智元报道 编辑:KingHZ 【新智元导读】这可能是近期开源圈最令人震惊的事件之一。一个在GitHub上狂揽8 5万星标的明星项目,被指控其核心架构涉嫌抄袭。硅谷知名AI实验室Nous Research旗下的Hermes Agent,其“自进化”功能被指与一个中国团队EvoMap在36天前开源的E

热心网友
04.15
坏了,我成AI的乙方了!Anthropic论文爆火,谁还敢无脑Copy?
AI
坏了,我成AI的乙方了!Anthropic论文爆火,谁还敢无脑Copy?

Anthropic开年研究:AI辅助编程,效率幻觉与认知代价 新智元报道 编辑:倾倾 【新智元导读】Anthropic开年发布了一项颇具冲击力的研究,直指一个尖锐问题:AI辅助编程,究竟是在提升效率,还是在悄然削弱开发者的核心能力?研究数据揭示的真相,可能比想象中更为复杂。 论文地址:https:

热心网友
04.14
Pandas3.0 太猛了!不用改一行代码,数据处理速度直接飙五倍
业界动态
Pandas3.0 太猛了!不用改一行代码,数据处理速度直接飙五倍

Pandas3 0带着Rust“buff”强势来袭,底层重写后性能直接翻倍 搞数据最烦什么?打开一个稍大点的CSV文件,进度条磨磨蹭蹭;跑个简单的分组统计,系统卡在那儿仿佛在思考人生。效率就在这无谓的等待中一点点流失。 不过,这个老大难问题现在有了相当优雅的解决方案。Pandas 3 0正式亮相,其

热心网友
04.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

连亏五个季度后,光伏板块终于盈利了
科技数码
连亏五个季度后,光伏板块终于盈利了

三季报收官,光伏企业交出了近年难得的尚佳成绩 三季报发布完毕,光伏行业总算交出了一份近年来难得的、还算不错的成绩单。市场等这一刻,确实等了挺久。 根据Choice光伏设备板块收录的78家企业财报,整个板块三季度的净利润达到了7 58亿元。这个数字怎么看?不妨对比一下:就在二季度,板块的净亏损还高达4

热心网友
04.22
天龙三号首飞失利:与猎鹰9号对标之路,归零迭代成破局关键
科技数码
天龙三号首飞失利:与猎鹰9号对标之路,归零迭代成破局关键

北京天兵科技天龙三号火箭首飞失利解析 最近,北京天兵科技自主研发的天龙三号大型液体运载火箭,在酒泉卫星发射中心执行首次飞行任务时遭遇失利,这无疑是给国内商业航天关注者带来了一次震动。这款被寄予厚望的火箭,瞄准的是近地轨道20吨级的可回收运力,其设计初衷是通过低成本、高频次的发射模式,抢占一箭36星组

热心网友
04.22
开发者自建48台Mac mini集群,撑起Overcast播客转录
科技数码
开发者自建48台Mac mini集群,撑起Overcast播客转录

苹果芯片实战:48台Mac mini搭建本地AI集群,如何碘伏云端语音识别? 最近科技圈有个挺有意思的消息。知名播客应用Overcast的开发者Marco Arment,自己动手搭了个“大家伙”——一个由48台苹果Mac mini组成的服务器集群。关键是,这个集群没走寻常路,它完全绕开了云端AI服务

热心网友
04.22
领克10+与10全球首秀:高效补能搭配赛道王者,开启纯电高性能新篇
科技数码
领克10+与10全球首秀:高效补能搭配赛道王者,开启纯电高性能新篇

纯电赛道再进化:领克10系列如何重新定义“运动轿车”? 如果问,纯电时代最让人怀念传统燃油车的是什么?很多人会把票投给两件事:说走就走的补能,和随心所欲的操控。最近,领克用一场全球首秀给出了自己的答案。旗下全新的中大型运动轿车领克10,以及更极致的性能版本领克10+联袂登场。这不仅仅是两款新车,更像

热心网友
04.22
Apple Vision Pro新专利曝光:将实现按需定制与组件更换
科技数码
Apple Vision Pro新专利曝光:将实现按需定制与组件更换

苹果正酝酿一款“可自定义”的Vision Pro,核心框架支持模块化拼装 一则来自供应链和专利领域的消息,引起了科技圈的关注。4月8日,有外媒报道指出,苹果似乎并不满足于当前的一体化设计思路,其正在深入探索如何打造一款高度可自定义的Apple Vision Pro。未来的VR AR头显,用户或许能像

热心网友
04.22