GPT-5编程实测：63.1%未交卷却仍超Claude 2倍

首页/科技数码/文章详情

GPT-5编程实测：63.1%未交卷却仍超Claude 2倍

时间：2025-09-22 21:13

Scale AI的新软件工程基准SWE-BENCH PRO，出现反转！表面上看，“御三家”集体翻车，没一家的解决率超过25%： GPT-5、Claude Opus 4 1、Gemini 2 5

SWE-BENCH PRO软件工程基准测试引发新思考

最新发布的SWE-BENCH PRO测试结果显示，主流AI模型的表现在表面上不尽如人意：

GPT-5、Claude Opus 4.1和Gemini 2.5分别以23.3%、22.7%和13.5%的解题率位列前三。

AI模型在SWE-BENCH PRO的表现

但更深层的数据分析揭示了有趣的现象。前OpenAI研究员Neil Chowdhury指出，仅就已回答题目而言，GPT-5的正确率高达63%，大幅领先Claude Opus 4.1的31%。

GPT-5已回答题目表现

这一反差表明GPT-5在其擅长的领域依然保持强劲表现，与SWE-Bench-Verified基准中74.9%的成绩相差不大。

SWE-BENCH PRO测试特点

相较于SWE-Bench-Verified相对宽松的测试环境（平均70%的正确率），SWE-BENCH PRO的评估体系更为严格：

采用全新测试题目，避免训练数据污染
剔除简单的一两行代码修改任务
聚焦需要跨文件、数百行代码修改的复杂场景

SWE-BENCH PRO测试设计

多样化的代码库构成

测试集包含1865个来自不同领域的代码库：

公共集：731个问题，来自11个开源代码库
商业集：276个问题，来自初创公司代码
保留集：858个问题，用于验证模型过拟合

严谨的评估流程

为保证测试有效性，研究人员采用了以下方法：

提供详尽的问题描述和上下文
明确列出各项需求及对应函数
在专业容器环境中执行测试
通过fail2pass和pass2pass双重验证

测试结果深度分析

整体表现来看，主流AI模型的解决率显著低于以往测试。

AI模型总体表现对比

关键影响因素

编程语言难度：Go和Python表现较好，JavaScript和TypeScript波动较大
代码库特性：不同代码库的解决率差异可达40%以上
模型规模：前沿大模型表现更稳定，小型模型容易得零分

各模型失败原因分析

模型差异化表现

GPT-5：已回答题目正确率高，但63.1%的未作答率拉低总分
Claude Opus 4.1：语义理解能力需提升，35.9%的错误解答率
Gemini 2.5：各项能力均衡，但无明显突出优势

AI模型发展前景

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-02

LiblibAI云端WebUI降低AI绘画部署门槛

LiblibAI在线WebUI的核心优势在于——只需通过浏览器即可流畅运行Stable Diffusion，无需自行搭建本地环境。云端直接处理运算，模型即选即试，大幅降低了AI绘画的创作门槛。对于轻量创作和模型快速测试来说，体验相当顺畅，但用户仍需重视数据隐私保护和版权合规等问题。过去使用Stab

科技数码 · 2026-07-02

微软因用户不安叫停Edge浏览器AI历史搜索功能

微软紧急暂停Edge浏览器AI历史搜索功能，该功能因被用户吐槽“令人不安”而暂缓部署。尽管微软强调所有AI处理在设备端完成且数据不上传云端，但用户仍不信任。此举与WindowsK2计划减少功能堆砌的理念一致。

科技数码 · 2026-07-02

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场

【CNMO科技消息】近日，红魔游戏平板5 Pro正式发布。这款平板从定位上就明确瞄准“极致游戏”体验，外观方面带来了一个重磅亮点——首次引入RGB水冷散热系统，背部那条可视化的水路通道，配合纯平透明背板设计，核心配置信息一览无余，科技感十足。图源网络屏幕方面同样表现突出。一块9 06英寸OLED

科技数码 · 2026-07-02

杭州全国首所机器人学校首批30台机器人入学

30台机器人整齐列队，有的刚从生产线卸下，机械零件还带着崭新的“工业气息”；有的已搭载运动控制模块，能稳健地小跑、跳跃几下。它们来自不同制造工厂，外形与功能各有千秋，但此刻都拥有了同一个身份——杭州机器人学校的第一批入学新生。 6月30日，杭州经信正式发布：由浙江大学机器人研究院、浙江省质量科学研究

科技数码 · 2026-07-02

美国计划发射航天器托举天文卫星

就在最近，NASA公布了一项非常果断的干预计划——他们定于6月30日实施一次“卫星维修任务”，派遣一台名为“连接”号的机器人服务卫星，为一颗超期服役的天文卫星延长运行寿命。这颗卫星是“尼尔·格雷尔斯·斯威夫特天文台”，其轨道高度正在不断衰减，如果不进行干预，今年年底前很可能会坠入地球大气层并烧毁。