GPT-5编程实测:未交卷率63.1%,综合能力超Claude两倍
AI编程测评遭遇滑铁卢:SWE-BENCH PRO揭示行业真实水平
Scale AI最新发布的软件工程评测基准SWE-BENCH PRO引发热议,测试结果显示主流AI模型表现远不及预期。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

测评结果解读:数据背后的真相
表面看三大主流模型全军覆没:GPT-5、Claude Opus 4.1和Gemini 2.5的解决率分别仅为23.3%、22.7%和13.5%。但前OpenAI研究员Neil Chowdhury指出,若仅统计已回答题目,GPT-5正确率可达63%,Claude Opus 4.1则仅有31%。

SWE-BENCH PRO评测基准解析
造成测评结果大幅下滑的根本原因是评测基准的全新升级:
- 采用1865个全新商业代码库,确保测试内容未被模型预先训练
- 排除简单修改问题,专注多文件复杂修改场景
- 引入真实商业代码环境,更好模拟工业实践

深度分析:模型失败原因探寻
不同模型展现各自短板:
- Claude Opus 4.1主要在语义理解环节失分
- GPT-5显示出工具使用效能问题
- Claude Sonnet 4面临上下文管理挑战
- Gemini 2.5表现较为均衡但不够突出

相关攻略
近期,上百家来自全球跨国企业的CEO齐聚中国,参加中国发展高层论坛。第一财经记者了解到,不少全球高管利用此次访华之际,参观了中国先进制造企业,包括电动汽车、智能家电以及人形机器人厂商。芬兰电梯巨头通
据 Axios 报道,苹果公司已聘请前谷歌副总裁 Lilian Rincon 担任人工智能产品营销副总裁。加入苹果之前, Rincon 曾任谷歌购物产品副总裁。在苹果, Rincon 将负责苹果所有
尽管这是一场聚焦 "独角兽 "发展的大会,但周鸿祎还是决定从那只长有 "两个角 "的 "龙虾 "讲起。龙虾即OpenClaw,2026年开年火爆全网的开源AI智能体框架,因红色龙虾图标形象得名,它让AI从 "聊天
3月28日,北京中关村国家自主创新示范区,一场聚焦前沿科技交叉领域的学术盛会,即国家自然科学基金学术论坛——仿生智能主题论坛拉开帷幕。本次论坛由国家自然科学基金委员会信息科学部主办,北京航空航天大学
3月29日,2026中关村论坛年会通用人工智能论坛召开,会上发布了一系列原创成果:全球首个通用智能人 "通通 "3 0升级亮相,具身智能、机器人核心引擎 "通脑 "入选2026中关村论坛年会重大成果,通育A
热门专题
热门推荐
鲁大师软件管家可安全升级常用软件:一、启动后点击顶部“软件管家”选项卡自动扫描;二、在“可升级软件”列表点击绿色“升级”按钮确认安装;三、勾选多个软件后点“批量升级”按钮并发处理;
3月29日,北京已在全国率先启动智能网联新能源汽车商业保险产品开发应用。新产品基本沿用现有的新能源商业车险体系,按照“总体稳定、部分优化”的原则,主要为消费者和汽车企业关心的特定智驾场景、软硬件损失
预计苹果今年将发布两款新的 iPhone 应用,包括 Apple Business 应用和一款具备类似聊天机器人功能的 Siri 应用。借助 Apple Business 应用,使用全新 Apple
据 Axios 报道,苹果公司已聘请前谷歌副总裁 Lilian Rincon 担任人工智能产品营销副总裁。加入苹果之前, Rincon 曾任谷歌购物产品副总裁。在苹果, Rincon 将负责苹果所有
3月29日消息,谁能料到前段时间奥迪车主与雷军之间的那个打赌,竟然还有后续。这到底是咋回事?事情发生在3月25日,网友@单手开吉利 在雷军的微博评论区晒出了自己去年10月刚提的奥迪车,还当场立下一个





