全球AI编程能力实测：GPT-5得分23.3%，地狱级考试金牌神话终结

首页/科技数码/文章详情

全球AI编程能力实测：GPT-5得分23.3%，地狱级考试金牌神话终结

时间：2025-09-22 21:17

编程大考，全球顶尖LLM夺金，真无敌了？最难编码基准SWE-Bench Pro出世，汇集了平均超100行代码的难题。没想到，最能打的LLM纷纷溃败，GPT-5仅拿下23 3%高分。一图看透全球大

编程大考，全球顶尖LLM夺金，真无敌了？最难编码基准SWE-Bench Pro出世，汇集了平均超100行代码的难题。没想到，最能打的LLM纷纷溃败，GPT-5仅拿下23.3%高分。

一图看透全球大模型！新智元十周年钜献，2025 ASI前沿趋势报告37页首发

继IMO 2025登顶后，谷歌、OpenAI的模型，再一次拿下了ICPC金牌。

ICPC，被公认为全球最具挑战的大学生编程竞赛之一。

OpenAI和谷歌不仅解决了全部12题，还在人类选手中位列第一，难道AI编程真能所向披靡了吗？

最新一项基准测试，直接打脸了全世界的顶尖模型。

它就是SWE-Bench Pro，专为评估AI编程智能体而生的新一代基准测试，直面真实企业级工程任务。

相较于前代SWE-Bench，Pro版本升级带来了三大突破：

任务难度全面提升抗数据污染能力更强无限逼近真实代码库

这一版，堪称编码中的「最后人类考试」。在实际测试（公开集）中，顶尖模型几乎溃败。

GPT-5虽拿下了第一，但成绩仅有23.3%，Claude Opus 4.1以22.7%得分位居第二。

其他模型更是没有一个能打的，得分全部低于15%。

这意味着，在更贴近真实世界的编程任务中，LLM的长程编码能力仍是短板。

最新21页技术论文，详细公开了SWE-Bench Pro设计细节。

论文地址：https://static.scale.com/uploads/654197dc94d34f66c0f5184e/SWEAP_Eval_Scale%20%289%29.pdf

编码界，需要一场硬核考试

过去，SWE-Bench等基准成为了评估LLM在软件工程中的重要标准。

这些测试中，通常要求AI基于完整代码库和自然语言描述，生成代码Patch。

就拿SWE-Bench Verified来说，顶尖LLM已实现超70%成功率，听起来确实非常厉害。

但这也暴露了一个问题：

未来6至12个月内，现有基准或许会「饱和」，无法再去有效衡量AI的进步。

由此，Scale AI正式发布了SWE-Bench Pro。

它提供了一个更真实、更具挑战的「考场」，直击痛点解决现有基准的缺陷。

数据污染，与现实脱节

当前，已有的编码基准测试，存在两大缺陷。

一方面，数据污染风险高。很多基准基于开源GitHub仓库构建，但这些仓库，尤其是MIT、Apache许可的项目，很容易被LLM训练数据「爬虫」。

由此一来，AI在测试时存在「作弊」的可能，或许它早就见过类似的难题。

另一方面，现有基准的任务太过简单，达不到「工业级别」。

还以SWE-Bench Verified举例，500道题中，竟有161道只需改1-2行代码。

这在实验室里可行，但到了企业环境中，往往涉及跨多个文件、数百行代码的复杂修改。

这样的基准，根本无法反映AI在真实开发场景中的表现。

编码考试不是AI智能体的最终目的，但一个更硬核基准，才能真实评估LLM是否真正符合工业级应用的标准。

SWE-Bench Pro：超100行代码难题

在SWE-Bench Pro设计中，一共包含1865个经人工验证与增强的问题，细分了三类子集——公开集、商业集、保留集。

论文中，研究团队介绍了SWE-Bench Pro的三大贡献：

巧妙收集设计，降低数据污染风险

SWE-Bench Pro创新数据收集策略，避开了污染陷阱。

（1）仅采用强著佐权许可证（GPL）的代码库构建公开集（11个代码库）和保留集（12个代码库）；

（2）从真实初创企业获取商业代码以构建商业集（18个代码库），从而捕捉企业级问题。

• 公开集：在HuggingFace公开发布731个实例，并在本文中报告相关统计数据和模型表现。这些实例源自采用著佐权（copyleft）许可证的公开代码库。

• 商业集：来自初创企业代码库的276个商业集问题。这是唯一包含初创企业专有代码库的集合，因法律限制无法公开。

• 保留集：保留了858个与公共集结构镜像但采用不同代码库的问题集。

任务升级，更具挑战、多样，更贴近工业

为了确保任务复杂度，Scale AI排除了1-10行代码「小修小补」的任务，只保留需要多文件、实质性修改的问题。

参考解决方案平均涉及4.1个文件、107.4行代码，所有任务至少改10行，超100项任务需改超100行。

除了复杂度外，选的代码库都是活跃维护的，覆盖了消费级App、B2B服务和开发者工具平台等多个领域。

而且，每个代码库贡献了50-100个实例（上限100），避免了对单一库的依赖。

人机协同验证，确保任务可解

有了以上难题还不够，最后一步，还需要确保它们是可解的。

为此，SWE-Bench Pro又引入了一个以人为中心的增强验证流程，分为三阶段人机协同流程。

一方面，它能澄清模糊信息，补充缺失的上下文；另一方面，通过约束解决方案空间，保持灵活同时避免假阴性。

Claude企业级第一，仅拿下17.8%「最高分」

不同顶尖模型，在SWE-Bench Pro上的表现如下表1所示。

以Pass@1作为问题解决率指标，GPT-5与Claude Opus 4.1分别以23.3%和22.7%解决率领先。

早期代际模型，比如DeepSeek Qwen-3 32B、GPT-4o表现明显落后，分别仅为3.4%和3.9%。

此外，公开集和商业集存在显著的性能差距。

最佳模型在商业集的得分均低于20%，从侧面印证了，企业级代码库处理的挑战性。

总的来说，LLM在公开集的通过率≤23.3%，在商业集≤17.8%，远远低于SWE-Bench Verified的70%以上。

这背后的原因，究竟是什么？

不擅长的语言，也会影响性能

从编程语言维度来看，AI性能分化明显。

在Go和Python任务中，大多数模型解决率较高，有些甚至超过30%。

相较之下，JavaScript（JS）与TypeScript（TS）则表现波动较大，根据模型不同，解决率从0%到超过30%不等。

不仅如此，代码仓库维度多样，有些仓库，所有模型解决率都低于10%。

有一些，还能达到50%。

仓库的复杂度、文档质量，或是问题类型等，也成了LLM在编码任务中影响性能的因素。

可以看到，Claude Opus 4.1、GPT-5在多数仓库和编程语言中，都能保持稳定高性能。

失败原因，多种多样

接下来，研究人员又让GPT-5作为「法官」，去对不同模型的故障进行分析。

具体步骤是，先手动构建常见故障分类桶，然后筛选未解决实例，收集最后20轮交互轨迹，向GPT-5提供提示，让其推理并分类故障。

结果显示，顶尖模型的失败原因，覆盖了各种情况。

Claude Opus 4.1：卡在了语义理解，错误解决方案占比35.9%，语法错误24.2%，技术执行力强，但问题理解、算法准确性有待提升。

GPT-5：工具使用差异明显，但错误解决方案较少。

Claude Sonnet 4：上下文溢出（35.6%）和无限文件读取行为（17.0%）是主因，暴露了上下文管理和导航策略的局限。

Gemini 2.5：工具错误（38.8%）、语法错误（30.5%）和错误解决方案（18.0%，多维度挑战并存

Qwen-3 32B：工具错误率最高（42.0%）

总言之，SWE-Bench Pro是一个全新抗污染、工业真实的基准，能够成为未来LLM编码能力一大标尺。

一作介绍

Xiang Deng

Xiang Deng现任Scale AI研究工程师，专注于LLM的编程与智能体研发。

他曾获得了俄亥俄州立大学的博士学位，以及中国科学技术大学计算机科学学士学位。

Jeff Da

Jeff Da现任Scale AI研究科学家，专注于强化学习、智能体与训练后优化方向。

他曾在艾伦人工智能研究所和华盛顿大学，主要从事推理能力评估、多模态学习等方向的研究。

彩蛋

有趣的是，在首席AI官Alexandr Wang评论区下方，所有人更关心的是MSL内幕消息。

Alexandr剧透，即将有更多新内容分享。

参考资料：

https://x.com/vbingliu/status/1969460781495566611

ScaleAI/SWE-bench_Pro · Datasets at Hugging Face

https://x.com/alexandr_wang/status/1969805196462358919

来源：https://36kr.com/p/3477782834977161

上一篇3.7万亿AI基建投资引发全球关注，美国市场面临新挑战 下一篇GPT-5编程实测：63.1%未交卷却仍超Claude 2倍

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-02

LiblibAI云端WebUI降低AI绘画部署门槛

LiblibAI在线WebUI的核心优势在于——只需通过浏览器即可流畅运行Stable Diffusion，无需自行搭建本地环境。云端直接处理运算，模型即选即试，大幅降低了AI绘画的创作门槛。对于轻量创作和模型快速测试来说，体验相当顺畅，但用户仍需重视数据隐私保护和版权合规等问题。过去使用Stab

科技数码 · 2026-07-02

微软因用户不安叫停Edge浏览器AI历史搜索功能

微软紧急暂停Edge浏览器AI历史搜索功能，该功能因被用户吐槽“令人不安”而暂缓部署。尽管微软强调所有AI处理在设备端完成且数据不上传云端，但用户仍不信任。此举与WindowsK2计划减少功能堆砌的理念一致。

科技数码 · 2026-07-02

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场

【CNMO科技消息】近日，红魔游戏平板5 Pro正式发布。这款平板从定位上就明确瞄准“极致游戏”体验，外观方面带来了一个重磅亮点——首次引入RGB水冷散热系统，背部那条可视化的水路通道，配合纯平透明背板设计，核心配置信息一览无余，科技感十足。图源网络屏幕方面同样表现突出。一块9 06英寸OLED

科技数码 · 2026-07-02

杭州全国首所机器人学校首批30台机器人入学

30台机器人整齐列队，有的刚从生产线卸下，机械零件还带着崭新的“工业气息”；有的已搭载运动控制模块，能稳健地小跑、跳跃几下。它们来自不同制造工厂，外形与功能各有千秋，但此刻都拥有了同一个身份——杭州机器人学校的第一批入学新生。 6月30日，杭州经信正式发布：由浙江大学机器人研究院、浙江省质量科学研究

科技数码 · 2026-07-02

美国计划发射航天器托举天文卫星

就在最近，NASA公布了一项非常果断的干预计划——他们定于6月30日实施一次“卫星维修任务”，派遣一台名为“连接”号的机器人服务卫星，为一颗超期服役的天文卫星延长运行寿命。这颗卫星是“尼尔·格雷尔斯·斯威夫特天文台”，其轨道高度正在不断衰减，如果不进行干预，今年年底前很可能会坠入地球大气层并烧毁。