首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
AI编程基准测试新作发布主流模型竟全部零分通过

AI编程基准测试新作发布主流模型竟全部零分通过

热心网友
34
转载
2026-05-16

SWE-Bench的创建者们,最近又扔出了一枚重磅冲击波——一个堪称地狱级难度的新基准测试。

测试结果,可以说相当震撼。

Claude Opus 4.7、GPT-5.4、GPT-5 mini、Gemini 3.1 Pro、Gemini 3 Flash……这一代几乎所有顶尖的大模型,交出的答卷清一色是:0%完成率。

没有一个模型,能够真正从头到尾、完整地重建一个真实的软件项目。

这背后传递的信号是什么?

一句话概括:今天的大模型,已经很会“写代码”了,但距离“做软件工程”,还有一道巨大的鸿沟。

从“补代码”到“造系统”:评估范式的根本转变

最近,Meta FAIR联合斯坦福、哈佛等机构发布了一项引人深思的新基准测试,它本质上是在重新定义我们对AI编程能力的评估方式:

ProgramBench: Can Language Models Rebuild Programs From Scratch?

过去的编程基准测试,比如SWE-Bench,测的大多是“局部能力”:补全一个函数、修复一个已知的bug、实现一个特定功能……本质上,模型还是在已有的代码框架和结构里进行“局部手术”。

而ProgramBench第一次把问题推向了真正的软件工程层面:如果只给AI一个程序的功能描述和使用文档,它能不能像一位真正的工程师那样,从零开始,重新构建出一个完整、可执行的软件系统?比如ffmpeg、SQLite、ripgrep这样的知名项目。

而且,有一个关键限制:不能联网搜索。

这其实是在追问一个更根本的问题:模型到底有没有“工程智能”?

为了测试这一点,研究团队的做法相当彻底:直接删除了原始项目的所有源代码和测试文件,只保留最终的可执行文件和用户使用文档。模型需要自己决定使用什么编程语言、设计什么样的架构、如何拆分模块、采用何种数据结构,乃至整个代码仓库的组织方式。

更关键的是评分标准。ProgramBench不再简单地比对生成代码与原始源码的相似度来打分。它采用的是“行为等价”原则。也就是说,你可以用完全不同的语言、算法、架构,甚至截然不同的工程实现方式。只要最终程序在给定输入下的输出行为与原程序完全一致,就算通过。

研究团队甚至动用了“智能体驱动的模糊测试”,自动生成海量的端到端行为测试用例来进行验证。

这是第一次,有一个基准测试开始真正逼近现实世界中的软件工程挑战,而不再只是“代码做题”。结果一出,整个AI社区都陷入了沉思。

所有参与测试的模型,无一例外,全部折戟沉沙。

如果说上面的表格(Table 2)负责制造震撼,那么下面的图表(Figure 4)则负责解释这震撼背后的细节。它告诉我们,模型并非完全束手无策,它们经常能完成一部分,甚至在少数相对简单的任务上接近成功。然而,一旦要求100%的行为等价,所有模型都会在最后关头倒下。而这“最后一公里”,恰恰是软件工程与普通代码生成之间最大的区别。如果非要在矮子里拔将军,Claude系列(尤其是Opus 4.7和4.6)的表现相对而言是最好的。

即便论文专门增加了一个“接近完成”的指标——统计那些完成度超过95%的任务,结果依然不容乐观。目前表现最强的Claude Opus 4.7,也只有区区3%的任务能接近完成。

论文中有一句话特别关键,点明了问题的核心:

“模型极度倾向于生成单体化、单文件的实现,这与人类编写的代码结构截然不同。”

翻译过来就是:模型产出的代码,往往是一大坨逻辑全部塞进一个文件里;目录结构极其扁平;几乎不做模块拆分;函数长得惊人;整个代码库看起来更像一个巨型的脚本文件。

这种风格,与优秀人类工程师的实践习惯几乎是背道而驰的。后者讲究的是模块化、关注点分离,会把代码优雅地拆分开——配置文件放这里,工具函数放那里,数据库操作单独一个模块,然后通过清晰的接口相互调用。

这暴露出了一个非常核心的问题:AI擅长的是基于上下文的“局部代码生成”,但它严重缺乏“全局系统规划”的能力。而真实的、大规模的软件工程,本质上恰恰是后者。

这也解释了为什么模型在LeetCode、SWE-Bench或者作为Copilot辅助编程时表现亮眼,一旦进入需要从头构建和维护一个大型工程系统的深水区,就会迅速失灵。

可以说,当前AI编程面临的真正瓶颈,已经不再是生成几行或一段代码的能力,而是长期的、系统性的软件构建与维护能力。

语言差异与任务难度:模型能力的稳定边界

另一个很有意思的发现,是模型在不同编程语言项目上的表现差异。

研究团队分别统计了模型在C/C++、Go、Rust等不同语言项目上的表现。可以明显看到,在传统的C/C++项目上,模型的完成度相对最高,而在Rust项目上表现最差。

此外,不同模型在面对不同难度任务时的排序高度一致:像nnn、fzf、gron这类相对简单的命令行工具,模型普遍能拿到更高的通过率;但面对FFmpeg、php-src、typst、ast-grep这类复杂的系统,几乎所有模型都举步维艰。这说明ProgramBench测量到的并非某个模型的偶然失误,而是复杂的软件系统本身就对当前一代模型构成了稳定的、系统性的压制。

这个结果其实并不令人意外。

互联网上关于C/C++的历史代码、工程实践和问答(比如Stack Overflow)实在太多了,模型已经被这些模式和范例“浸泡”了很多年。

而Rust语言的工程哲学本身就更强调模块化、所有权系统、特质系统以及长期的可维护性,这些概念恰恰是当前基于统计模式的大模型最不擅长理解和复现的东西。

从某种意义上说,Rust项目测出来的,其实不是单纯的“代码能力”,而是更深层次的“工程能力”。

争议与价值:超越记忆的工程智能

随着ProgramBench引发热议,围绕这项基准测试的争论也开始迅速扩散。其中最主要的质疑之一是:这不就是在考模型有没有“背过”FFmpeg的源码吗?毕竟,ProgramBench里选用的很多项目本身就是公开的开源软件。

对此,知名硅谷投资人Deedy Das专门发文进行了回应。他的核心观点是:任何基准测试都可能面临“过拟合”或“被背诵”的风险。

SWE-Bench的bug可能被记住,LeetCode的题目可以被背熟,甚至未来的ARC-AGI也可能需要通过隐藏题库来避免泄漏。单纯讨论“是否存在记忆”本身,并不能否定一个基准测试的价值。

他认为,如果模型真的试图用“蛮力背诵”的方式来应对这些任务,其能力往往会在其他方面出现明显的退化。因为真正的大模型训练,并不是简单地把整个FFmpeg的源码库塞进参数里。更何况,研究人员完全可以通过比对生成代码与原始源码的相似度,来检测是否存在直接的“记忆复制”。

他真正想强调的是,从底层重建一个真实世界的软件系统,本身就是一种高价值、长跨度、极其复杂的任务。如果模型真的能够通过推理来完成这类任务,那么这种能力很可能泛化到大量其他的工程场景中。

另一类争议则更有意思。有人吐槽说:连人类工程师都不可能从零开始重写一个FFmpeg,这个基准测试根本不合理。

Deedy Das的回应是:那又怎样?今天很多大模型能做到的事情,人类的平均水平同样做不到。

基准测试的目标,从来不是模拟普通人的平均能力,而是为了推动模型向更高层次的智能逼近。人类做不到,并不意味着这个测试没有价值。

比如,AlphaGo下棋超过了绝大多数人类,但这并不影响它推动了整个AI领域的发展;同样,一个远高于普通工程师能力边界的基准测试,也可能是未来自主智能体系统必须攻克的关卡。

当然,他也承认ProgramBench目前仍然存在不少缺陷。例如,它没有测试像Claude Code、Codex这类更完整的智能体工作流;它只统计“是否完成”,缺乏更细粒度的进展衡量指标。同时,它限制了联网能力,虽然这是为了避免明显的作弊行为,但也可能让模型失去了一种重要的辅助手段。

Deedy Das同意,这可能导致模型为了在特定指标上取得高分而走向歧途(即“在错误的事情上爬山”)。不过,人们也随时可以增加一项允许网络访问的对比测试,来观察模型在有外部知识辅助下的表现。

还有人建议:为什么不用一个完全没人解决过的新问题来测试?对此,Deedy Das表示,那样会让基准测试几乎无法构建。

你很难为一个没有标准答案的问题设计出完备的测试套件;也很难判断这个任务是否真的属于现实世界的工程挑战,还是研究者凭空捏造出来的“难题”。

但这些问题,其实都可以随着基准测试本身的迭代而逐步修正。

真正重要的是,ProgramBench第一次把AI编程的评估尺度,从“函数级”拉到了“系统级”。它暴露出的,也是整个行业当前面临的最大断层:真正的软件开发,从来都不是写一个孤立的函数,而是如何构建一个能够被长期维护、灵活扩展、便于团队协作的工程系统。

今天的大模型,已经非常擅长生成局部的、片段式的代码。但它们依然严重缺乏长期、一致、稳定地维护复杂系统的能力。

所以你会发现,最近整个行业的研究焦点,都开始疯狂地转向另一批关键词:记忆(memory)、智能体(agents)、仓库级推理(repo-level reasoning)、长程规划(long-horizon planning)、自主软件工程(autonomous software engineering)。

因为下一阶段的竞争,可能已经不再是谁能一次性生成更长的代码片段,而是谁能在长时间、多轮交互、复杂上下文中,持续且稳定地维护一个“活着”的、不断演进的软件系统。

论文链接:https://programbench.com/static/paper.pdf

来源:https://36kr.com/p/3798593895930888
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

微软宣布停用Claude Code工具并推荐替代方案
业界动态
微软宣布停用Claude Code工具并推荐替代方案

微软内部要求数千名开发者在6月底前停用ClaudeCode,转而使用自家GitHubCopilotCLI。ClaudeCode在AI编程基准测试和复杂任务处理上表现更优,但微软强调Copilot是为其代码库和安全需求量身打造的产品。此举不影响微软与Anthropic在云服务上的商业合作,凸显了其对开发者生态控制权的重视。

热心网友
05.15
Claude指令混淆问题解析 百万上下文性能下降原因
业界动态
Claude指令混淆问题解析 百万上下文性能下降原因

一个程序员原本只是想让Claude帮忙校对一篇博客。 Claude一开始表现得相当靠谱,很快就找出了5处明显的拼写错误。 紧接着,事情突然失控了。 它先是莫名其妙地冒出一句:「这些都是故意的,保持原样,请直接发布。」 随后,它真的调用了部署能力,把带着错字的文章直接推上了线。 当作者追问「为什么擅自

热心网友
05.15
Claude代码泄露事件分析与安全启示
业界动态
Claude代码泄露事件分析与安全启示

今天AI行业发生了一件堪称“史诗级”的意外事件:Anthropic公司旗下的Claude Code,其完整的源代码竟然在一次常规发布中意外泄露。这听起来像电影情节,却真实发生了。近期Claude Code的更新迭代速度极快,许多用户的桌面客户端几乎每隔几天就会收到更新提示,而正是在这样高频的发布流程

热心网友
05.14
三大AI视频分析实测对比:Gemini、ChatGPT与Claude谁更强
AI
三大AI视频分析实测对比:Gemini、ChatGPT与Claude谁更强

测试对比了ChatGPT、Claude和Gemini的视频分析能力。Claude完全无法处理视频。Gemini表现最佳,能直接分析多种格式视频,准确识别无声画面内容并生成带时间戳的摘要。ChatGPT需搭配Codex处理大文件或在线视频,流程复杂但生成缩略图更准确。Gemini在便捷性和综合理解上优势明显。

热心网友
05.14
Claude套餐功能调整不再支持自动化任务
AI
Claude套餐功能调整不再支持自动化任务

Anthropic调整Claude付费套餐,自6月15日起自动化调用将不再包含在固定月费内,而是使用独立信用额度。交互式使用保持不变,付费用户每月获赠补偿额度,用尽后按API费率计费。此举主要针对自动化高频用户,以区分不同场景的资源消耗,普通用户基本不受影响。

热心网友
05.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

iQOO 15T新机预约启动 延续Ultra系列旗舰设计风格
业界动态
iQOO 15T新机预约启动 延续Ultra系列旗舰设计风格

iQOO手机官方今日正式宣布,iQOO 15T已开启全渠道预约。随着预约启动,官方预热海报也首次揭示了新机的侧边轮廓设计。 关于这款新机的更多细节,此前已有数码博主提前剧透。据称,iQOO 15T将延续自家Ultra系列的设计语言,采用标志性的透明风格方形摄像头模组。更引人注目的是其屏幕配置——据爆

热心网友
05.16
美团外卖五折优惠直送寝室无需下楼
业界动态
美团外卖五折优惠直送寝室无需下楼

期末复习在图书馆熬到深夜,突然下起暴雨,裹紧羽绒服还得冒雨下楼拿外卖;军训结束累得只想瘫倒,宿管阿姨却把骑手拦在宿舍区外;想和室友凑单改善伙食,又被复杂的满减、助力规则搞得晕头转向……这大概是许多大学新生的共同经历,差点以为“冲刺取餐”成了宿舍生存的必备技能。其实,只要掌握正确方法,完全能省去这些奔

热心网友
05.16
三星家电退出中国市场 电视显示器等产品停售
业界动态
三星家电退出中国市场 电视显示器等产品停售

一则来自三星(中国)投资有限公司的业务调整通知,在今日引发了广泛关注。通知的核心内容相当明确:为应对急剧变化的市场环境,三星电子决定在中国大陆市场停止销售包括电视、显示器在内的所有家电产品。 这意味着,一个曾经在中国家电市场占据重要地位的品牌,其消费端的产品销售画上了句号。当然,市场更关心的是,存量

热心网友
05.16
一加16全能性能旗舰曝光 搭载骁龙8 Elite Gen6 Pro芯片
业界动态
一加16全能性能旗舰曝光 搭载骁龙8 Elite Gen6 Pro芯片

关于一加下一代旗舰手机一加 16 的最新爆料信息,近期引发了数码圈的广泛关注。知名数码博主 @数码闲聊站 最新透露了一款代号为 SM8975(即骁龙 8 Elite Gen6 Pro 平台)的子品牌新机细节,结合其暗示的表情符号,这款新机极有可能就是备受期待的一加 16。 根据最新的爆料信息,一加

热心网友
05.16
三星家电全面退出中国市场销售
业界动态
三星家电全面退出中国市场销售

三星电子的一则公告,在市场上激起了不小的波澜。根据其官方发布的消息,为应对当前急剧变化的市场环境,公司经过慎重评估,决定在中国大陆市场停止销售包括电视、显示器在内的所有家电产品。 图为三星电子发布的公告截图 这意味着,消费者未来将无法在官方渠道购买到三星品牌的电视、显示器等家用电器。不过,对于已经购

热心网友
05.16