GPT5.5深夜炸场，这次OpenAI又行了

时间：2026-04-25 07:04

GPT-5 5深夜突袭：OpenAI打了个漂亮的翻身仗出品｜虎嗅科技组作者｜赵致格编辑｜苗正卿头图｜视觉中国还记得OpenAI CEO奥特曼那段著名的“吓瘫”论吗？他曾用“看到原子弹爆炸”来形容初次体验GPT-5的震撼。结果呢？期待越高，落差越大，那段夸张描述反倒成了网友反复调侃的梗。不

GPT-5.5深夜突袭：OpenAI打了个漂亮的翻身仗

出品｜虎嗅科技组

作者｜赵致格

编辑｜苗正卿

头图｜视觉中国

还记得OpenAI CEO奥特曼那段著名的“吓瘫”论吗？他曾用“看到原子弹爆炸”来形容初次体验GPT-5的震撼。结果呢？期待越高，落差越大，那段夸张描述反倒成了网友反复调侃的梗。

不过，这次情况不同了。4月24日，OpenAI毫无预告地在半夜甩出了GPT-5.5。没有天花乱坠的铺垫，惊喜却实实在在。官方将其定位为“面向实际工作和智能体的新型智能”，主攻Agent编程、知识工作和科学研究。目前，ChatGPT和Codex的Plus、Business、Enterprise用户已经能用上，API也将紧随其后。

虽然这次没人被“吓瘫”，但看看第三方评测的分数就明白了：GPT-5.5的综合表现相当亮眼。它不仅比自家的GPT-5.4进步了一大截，在多个关键领域也超越了Claude Opus 4.7、Gemini 3.1 Pro这些老对手。可以说，在过去一段时间里饱受质疑的OpenAI，这回算是打了一场漂亮的翻身仗。

性能实测：多项领先，编程与安全是亮点

先看硬指标。在OpenAI内部用于评估20小时长周期软件工程的Expert-SWE测评中，GPT-5.5的成功率达到了惊人的73.1%，显著高于上一代GPT-5.4的68.5%。

这还不是全部。在衡量复杂命令行工作流的Terminal-Bench2.0测试中，GPT-5.5评分高达82.7%，远高于Claude的69.4%。此外，无论是知识工作任务（GDPval）、高级数学测试（FrontierMath），还是衡量真实电脑操作能力的OSWorld-Verified，GPT-5.5的评分都稳稳压过竞争对手一头。

编程能力方面，GPT-5.5表现不俗，但Opus 4.7在SweetBench Pro测试中依然保持领先，得分64.3%高于GPT-5.5的58.6%。不过，OpenAI对此也有话要说：公司指出，行业报告已显示该评测存在过拟合问题，未必能真实反映编程能力。

另一个显著提升的维度是网络安全。在CyberGym测试中，GPT-5.5拿下81.8%的得分，超过了Opus 4.7的73.1%。在CTF“夺旗”挑战中，它的得分也达到了88.1%，高于GPT-5.4的83.7%。

核心进化：从“参谋”到“执行者”

当然，OpenAI更乐于强调的，是GPT-5.5定位的转变。它不再只是一个聪明的聊天对象，而是被设计成“专为真实工作和智能体任务打造”的模型。用官方账号的话说，它“旨在理解复杂目标、使用工具、检查其工作，并将更多任务进行到底”，这标志着“完成计算机工作的全新方式”。

翻译成更直白的大白话就是：这次升级让GPT获得了“自己动手”的能力。它正在从辅助人类决策的“参谋”，转向参与实际执行的“员工”。你大可以把一个混乱复杂的任务直接丢给它，GPT-5.5能自己理解目标、拆解步骤、调用工具、修正过程，最后把结果交到你手上。

为了证明这一点，OpenAI还公布了内部的使用数据：目前公司超过85%的员工每周都在跨部门使用搭载GPT-5.5的Codex。更直观的是，财务团队已经用它完成了24771份、总计超过7万页的税表审核工作，完工时间比往年足足提前了两年。

不过，这次升级似乎还没做到让人类完全“放手”。多个第三方评测都提到了一个特点：GPT-5.5对任务边界的依赖更强。如果需求描述模糊不清，它不会主动帮你补充完善，而是会严格按照现有信息去执行。这种“高度服从”在某些需要创造性的场景下，反而可能成为一种局限。

效率与成本：更聪明，却未必更“贵”

AI领域有个常见的两难选择：智慧和速度往往不可兼得。模型更大、参数更多，通常意味着更长的思考时间。但GPT-5.5这次打破了这个惯例——在智能水平大幅提升的同时，其真实服务响应速度却与GPT-5.4保持了一致。

另一个关键特征是“省”。GPT-5.5将Token消耗降低到了前一代的三十六分之一。在同类Codex任务中，它也用更少的Token就能搞定。这意味着，尽管此次API价格大幅上调（每百万Token 5美元，Pro版30美元），但由于效率提升和消耗锐减，用户实际增加的成本可能非常有限。

OpenAI联合创始人格雷格·布罗克曼谈及这一点时表示，公司的目标始终是“让企业和普通用户都能用上更前沿的AI能力”。

行业格局：对手的烦恼与OpenAI的算力牌

当OpenAI凭借新模型重回聚光灯下时，它的老对手Anthropic最近的日子却有点不好过。这家长期主打“安全牌”的公司近期爆出了安全丑闻，同时对重度付费用户严厉限流、大面积无差别封号等操作也引发了巨大争议。日益高企的Token费用和消耗，更是让许多用户直呼“用不起”。

此前，OpenAI在内部邮件中曾直言，自己相对于Anthropic的核心优势是“算力”。如今，随着算力充足的OpenAI大秀肌肉，而Anthropic在算力吃紧中用户体验不断打折，这两位一度“贴身肉搏”的巨头，其发展轨迹似乎正在悄然拉开差距。

来源：https://www.163.com/dy/article/KRBBO99K051188EA.html

OpenAI

上一篇龙虎榜 | 9.92亿资金爆买大族激光，深股通卖出！深南东路猛攻百川股份 下一篇推动人工智能赋能女性发展（APEC中国年：开放创新合作）

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

OpenClaw手机App上线，结果翻车了

OpenClaw 官方宣布，已正式推出 iOS 和 Android 原生移动 App，用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接：把 Agent 放进口袋里，让用户可以在移动端处理频道消息、任务和回复。从功能上看，OpenClaw 移动端并

科技数码 · 2026-07-01

优必选CEO周剑：家庭机器人生态核心投入过半精力

先说几个核心判断：优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上，直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进，现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景，另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间，技术路线尚未收敛

6月30日，申银万国在光连接系列研报中重点指出，MPO光连接器领域的投资机会值得高度关注。通俗来说，随着AI算力集群持续扩张，光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件，如今它直接决定着链路插损、可

科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上，区级部门一次性推出了7个AI“龙搭子”。其中，名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解，依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”，已在今年五一假期发布了内测版本。经过一个月市场验证后，该项目正式启动面向全社会的

科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日，南下资金持续大举买入港股，单日净流入金额高达58 95亿港元。接下来，我们直接盘点哪些个股获得资金青睐、哪些遭到减持：净买入方面，中芯国际领跑全场，单日吸金19 33亿港元；建滔积层板紧随其后，净买入10 59亿港元；腾讯控股获得7 65亿港元净流入；智谱（02513 HK）也有6 5