GPT-5编程实测：未交卷率63.1%，综合能力超Claude两倍

首页

AI资讯

热心网友

转载

2025-09-23

AI编程测评遭遇滑铁卢：SWE-BENCH PRO揭示行业真实水平

Scale AI最新发布的软件工程评测基准SWE-BENCH PRO引发热议，测试结果显示主流AI模型表现远不及预期。

AI模型测评结果对比

测评结果解读：数据背后的真相

表面看三大主流模型全军覆没：GPT-5、Claude Opus 4.1和Gemini 2.5的解决率分别仅为23.3%、22.7%和13.5%。但前OpenAI研究员Neil Chowdhury指出，若仅统计已回答题目，GPT-5正确率可达63%，Claude Opus 4.1则仅有31%。

模型实际表现对比

SWE-BENCH PRO评测基准解析

造成测评结果大幅下滑的根本原因是评测基准的全新升级：

采用1865个全新商业代码库，确保测试内容未被模型预先训练
排除简单修改问题，专注多文件复杂修改场景
引入真实商业代码环境，更好模拟工业实践

SWE-BENCH PRO基准设计

深度分析：模型失败原因探寻

不同模型展现各自短板：

Claude Opus 4.1主要在语义理解环节失分
GPT-5显示出工具使用效能问题
Claude Sonnet 4面临上下文管理挑战
Gemini 2.5表现较为均衡但不够突出

不同模型的失败模式分析

来源:https://www.ithome.com/0/884/947.htm

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：宇树G1人形机器人抗摔测试：被围攻后秒速自主起身下一篇：Meta推出MobileLLM-R1系列AI模型：10亿参数内专精数学与编程

相关攻略

科技数码

创新谈从词元海量调用看技术发展新趋势

近期我国日均词元调用量突破140万亿，两年增长超千倍，显示AI已深度融入生活与产业。词元作为AI处理基本单元，其调用量飙升反映了技术在教育、农业、企业等领域的广泛落地。这背后依托算力、算法、电力等全产业链支撑，使词元成为衡量产业价值的关键单位。高质量数据扩容与政策支持也加速了。

热心网友

05.25

AI教程

AI智能写作助手高效使用指南与选择技巧

一、如何利用AI智能写作生成器提升写作效率在内容为王的时代，写作效率直接关系到信息传播的速度与广度。AI智能写作生成器的出现，为内容创作领域带来了一场静默的革命。它不再仅仅是概念，而是切实融入日常工作与学习的生产力工具。那么，面对市场上琳琅满目的选择，如何找到真正能提升效率、优化质量的AI写作助手

热心网友

05.25

AI教程

AI文本阅读与人工智能技术提升学习效率的五个方法

在信息爆炸的当下，高效获取与消化海量文本信息已成为个人与组织的核心竞争力。人工智能技术的深度应用，正重塑着我们处理文本的传统模式。借助AI文本阅读工具，我们能够实现知识的快速萃取与要点的精准把握，这项技术不仅革新了日常学习方式，更在金融分析、法律文书、科研文献等专业场景中释放出巨大潜力。本文将系统阐

热心网友

05.25

AI教程

AI一键生成PPT颠覆传统演示提升职场效率

一、可以直接生成ppt的ai如何改变你的演示方式当科技浪潮席卷职场，一个现实问题摆在面前：传统的PPT制作方式，是否还能跟上快节奏的步伐？回顾日常，从构思框架、搜集素材、设计排版到最终定稿，耗费的时间与精力往往远超预期。这背后，是效率的瓶颈，也是创造力的无形损耗。如今，局面正在被改写。可以直接生

热心网友

05.25

AI教程

AI人工智能PPT模板：提升演示效果与企业应用策略指南

AI人工智能PPT模板能将复杂技术概念转化为视觉故事，提升演示说服力，广泛应用于教育、商业等领域。借助WPSAI等工具的一键生成功能，制作效率显著提高。未来需求持续增长，但也面临技术迭代与个性化挑战。该模板在零售、医疗、金融等行业有效辅助数据呈现与决策沟通，成为连接技术与业务的桥梁。

热心网友

05.25

热门推荐

web3.0

SOL币空投领取全攻略：资格条件与参与步骤详解

抓住Solana生态空投：一份务实参与指南 Solana生态凭借其高性能和低成本的优势，正吸引着大量新项目涌现。参与这些项目的早期空投，无疑是获取潜在回报的一条有效路径。接下来，我们将详细拆解参与SOL生态空投的具体方法，并梳理获得空投资格的关键条件，助你更精准地把握机会。一、基础准备：存储与资金

热心网友

05.25

AI资讯

QClaw供应商信息收集与评估报告生成操作指南

QClaw通过自动化流程提升供应商评估效率。系统自动抓取整合公开信息，OCR校验资质文档真伪，并基于多维指标生成结构化评估报告。最终通过API对接业务系统，实现数据动态更新与报告持续优化。

热心网友

05.25

AI资讯

通义万象支持水彩油画等AI绘画风格详解

通义万象提供水彩、油画等八种图片风格。生成水彩画需在提示词中明确“水彩风格”并添加材质描述，同时在设置中选择“水彩”风格。油画生成则需构建包含材质特征的详细提示词，并选用“油画”风格及wan2 5模型。还可通过风格迁移参考真实画作，或结合语音输入与局部重绘优化效果。

热心网友

05.25

AI资讯

千问Prompt工程自动优化方法与工具推荐

手动优化提示词效率低且不稳定。自动优化方法包括：使用阿里云百炼快速重构提示词；基于输入-输出样例进行精准反馈优化；利用AutoPrompter联合搜索提示词与模型的最佳组合；通过MIPRO方法对多步骤工作流进行联合调优；以及借助PromptWizard框架实现黑盒模型的自主提示词进化。这些策略能系统性提升模型表现。

热心网友

05.25

web3.0

2026年狗狗币价格走势预测与行情分析工具全攻略

狗狗币2026走势分析：关键变量与实用工具指南想要预判数字资产的未来价值，离不开对市场趋势的深度洞察和趁手分析工具的辅助。接下来，我们将一同梳理可能左右狗狗币2026年走向的几个核心变量，并介绍几款实用的行情分析平台，希望能为您的独立判断提供有价值的参考。一、影响2026年走势的关键因素说到影

热心网友

05.25