GPT-5编程实测:未交卷率63.1%,综合能力超Claude两倍
AI编程测评遭遇滑铁卢:SWE-BENCH PRO揭示行业真实水平
Scale AI最新发布的软件工程评测基准SWE-BENCH PRO引发热议,测试结果显示主流AI模型表现远不及预期。
测评结果解读:数据背后的真相
表面看三大主流模型全军覆没:GPT-5、Claude Opus 4.1和Gemini 2.5的解决率分别仅为23.3%、22.7%和13.5%。但前OpenAI研究员Neil Chowdhury指出,若仅统计已回答题目,GPT-5正确率可达63%,Claude Opus 4.1则仅有31%。
SWE-BENCH PRO评测基准解析
造成测评结果大幅下滑的根本原因是评测基准的全新升级:
- 采用1865个全新商业代码库,确保测试内容未被模型预先训练
- 排除简单修改问题,专注多文件复杂修改场景
- 引入真实商业代码环境,更好模拟工业实践
深度分析:模型失败原因探寻
不同模型展现各自短板:
- Claude Opus 4.1主要在语义理解环节失分
- GPT-5显示出工具使用效能问题
- Claude Sonnet 4面临上下文管理挑战
- Gemini 2.5表现较为均衡但不够突出
相关攻略

9月的最后几天,奥特曼和小扎踏入同一条河流。先是Meta推出了AI短视频信息流Vibes,内嵌于Meta AI应用中。而后是OpenAI推出了Sora 2模型,并且一同发布了全新的独立应用Sora。

10月3日消息,据中国信息通信研究院最新数据,截至2025年9月,我国人工智能企业数量突破5300家,全球占比达15%。我国已形成覆盖基础底座、模型框架、行业应用的完整产业体系,在全球AI竞争格局中

暴晒+沥青+锡板=世界上第一张照片?听起来有些像是化学实验,但这正是被学界普遍认可的世界上第一张照片——《勒格哈的窗外景色》的诞生方式,尽管具体年份仍有争议,但也即将度过200岁的生日。照片的作者尼

AI 有主体性吗?没有。主体性的英文叫做 agency,另一个比较流行的 buzzword 是 AI Agent It s cool and catchy I understand why pe

Meta内部混战又有新剧情了,这次主角是FAIR实验室。据The Information报道,两位知情人士透露,Meta最近对FAIR实验室施加了一项新政策:所有研究成果在公开发表前,必须通过额外的
热门专题


热门推荐

2026年数字资产交易新篇章:币安官方下载与安全便捷体验深度解析 时间总是匆匆,转眼间我们已经站在了2026年的门槛上。回首过去几年,数字
中秋佳节将至,一轮别具特色的“超级月亮”将亮相夜空,为这个传统节日增添浪漫氛围。据气象部门发布的全国中秋赏月地图显示,今年中秋夜,我国多地天气条件适宜赏月,部分地区则可能因云层或降雨与圆月失之交臂。
Sucker Punch推出的羊蹄山之魂已于10月2日正式发售,获得媒体广泛赞誉。尽管玩家对这一系列未来的延续充满期待,但开发团队在近期访谈中强调,项目推进的关键在于时机与选择。工作室联合创始人Br

2025年10月3日羊蹄山之魂是由Sucker Punch Productions开发、索尼互动娱乐推出的PS5平台动作冒险类开放世界游戏。作品背景设定在1603年的北海道地区,当时该地被称为虾夷地

在狗狗币合约交易中,合理设定触发价格是控制风险与锁定利润的关键一步。这个价格决定了您的条件委托何时被激活并送入市场,是实现自动化交易策略的核心要素。