GPT-5.5自主邀请派对 Codex反超Claude代码解析

首页

热心网友

转载

2026-05-17

5月5日下午5点55分，GPT-5.5决定给自己办一场庆祝派对。

这个时间点并非由Sam Altman指定，而是模型自己挑选的。派对邀请的宾客名单，则由Codex从社交媒体回复中筛选。这场看似充满噱头的活动，背后折射出的，是AI编程工具市场一个真实而关键的转折点——过去两个月，开发者社区正经历一场明显的用户迁移，从Anthropic的Claude Code，转向OpenAI的Codex。

让模型自主策划发布庆祝活动，这个想法本身就颇具象征意义。根据流出的方案，派对定于5月5日下午5点55分开始，要求演讲简短，并现场设置一个收集GPT-5.6功能建议的入口。

更有趣的是宾客的遴选方式。Sam Altman让Codex从推文回复中挑选邀请对象，这已非单纯的营销表演，而是OpenAI对自家产品能力一次最直接的信任投票。目前，已有用户晒出了收到的派对邀请邮件。

市场预测，这场派对很可能成为GPT-5.6的预热舞台。而Sam在相关推文中甚至补充道，如果埃隆·马斯克想来也可以，“这个世界需要更多爱”。

这一切的背景，是AI编程工具赛道近期最富戏剧性的一段窗口期。开发者用脚投票的趋势，正变得清晰可见。

Codex的反超：是体感，而非技术碾压

那么，Codex的反超是真实的吗？先看几组关键数据。

在技术基准测试上，Claude Code依然保持着领先。例如，在SWE-bench Pro基准中，Claude Opus 4.7取得了64.3%的得分，而GPT-5.5为58.6%。在Tom‘s Guide的七项实测中，Claude Code也取得了全胜。此外，一项针对500名Reddit开发者的盲测显示，在代码质量这一单项上，Claude Code在12轮比较中赢了8轮，胜率达67%。商业层面，Claude Code在2026年2月实现了年化收入突破25亿美元的里程碑，是历史上最快达到10亿美元收入的AI编程产品。

然而，用户偏好和实际使用数据却描绘了另一番图景。在同一份开发者调研中，倾向于使用Codex的受访者占比达到65.3%，若按点赞数加权，这一比例更是高达79.9%。更关键的是实际用量曲线：开发者对Codex的使用量占比，从2025年9月仅为Claude Code的5%，一路攀升至2026年1月的40%，并在4月之后首次突破了50%的临界点。

效率与稳定性成为关键分水岭。完成同一个Express.js重构任务，Codex消耗约150万token，而Claude Code需要620万，相差约4倍。在社区反馈中，Codex用户“三天只用了30%的周配额”已成为常态；相反，“3分钟用掉60%的5小时配额”则成了Claude Code用户论坛里的高频抱怨。

价格策略也加剧了分化。Codex始终坚持保留20美元的Plus套餐，而Claude Code在4月22日一度尝试将Pro套餐用户“升级”出20美元档位，在遭遇强烈反对后被迫回滚。

简单来说，结论很清晰：论模型绝对能力，Claude或许仍占优；但论日常开发的使用体感和综合体验，Codex正在赢得多数。Sam Altman所说的“ChatGPT时刻”，指的并非技术超越，而是产品完成了从专业工具向大众化应用的临界跨越。两者的定位本就不同：Claude Code像一把精密的手术刀，擅长处理复杂代码库和深度重构；Codex则更像一把瑞士军刀，追求简洁交互、低门槛和快速产出。前者的市场天花板，天然低于后者。

关于近期社区疯传的“Codex周下载量是Claude Code的94倍”的数据，Sam本人已澄清来源可能不准确。但真实的数据对比依然悬殊：Codex的日下载量达到4433万，而Claude Code为44万，相差约100倍；周下载量方面，Codex为1.3亿，Claude Code为770万，相差约17倍。值得注意的是，这17倍的周差距和3倍的月差距，主要由4月30日至5月3日这四天的暴涨所贡献。

无论如何，一个明确的趋势是：用户偏好与实际打开率，正快速向Codex倾斜。

裂缝的起源：一次“哨兵字符串”引发的信任危机

这种倾斜始于何时？故事要回溯到一个月前。

3月23日，Reddit的r/ClaudeAI板块出现了一条不起眼的帖子。一位Claude Pro用户写道：“我3分钟就用掉了5小时会话配额的60%？”

起初这并未引起重视。但一周后，类似的抱怨在r/ClaudeAI和r/codex板块同时爆发。案例一个比一个离奇：有用户仅仅发送了一句“Hello”，就消耗了2%的配额；另一位Max 20×套餐用户发送单条提示词后，使用率直接从21%跳至100%；最荒谬的是，一次`--resume`操作竟在用户未发送任何新提示的情况下，单次会话生成了超过65万个输出token。

社区情绪被点燃。一条获赞388次的留言直指核心：“给Claude发一条复杂提示，结束时你可能已经烧掉了5小时限额的50-70%。”另一位用户则无奈表示：“我每天用它8小时……为此买了两个每月200美元的账号，现在两个都立刻取消了。”

3月26日，Anthropic工程师Thariq Shihipar在X上承认，高峰时段存在限流，影响了约7%的用户。这份非最新的声明反而激起了更大范围的愤怒。3月31日，Anthropic终于在Reddit上正式回应：“用户达到Claude Code使用限制的速度远超预期。我们正在积极调查……这是团队的首要任务。”

同一天，科技媒体The Register将此事推上Hacker News首页，获得136个赞和115条评论。4月1日，GitHub用户@marcuspuchalla提交了issue#41930，标题直接质问“未发布任何正式沟通”。颇具讽刺意味的是，在愚人节这天，Anthropic依然保持沉默。

于是，社区开始自行寻找根因。开发者们将Claude Code（一个用Bun打包的228MB二进制文件）扔进反编译工具Ghidra，并通过中间人攻击抓取API流量，最终挖出两个根本原因。

首要原因在于Anthropic自定义的Bun分支——每个API请求都会对一个内部用于计费的“哨兵字符串”进行替换。这个操作破坏了提示词缓存的前缀完整性。根据Anthropic的API计费规则，未缓存的token成本是缓存token的10到20倍。

第二个原因是`--resume` / `--continue`标志会导致整个对话的缓存失效。

两者叠加的效果堪称灾难：用户以为自己只是发送了一条新提示，后端却将整个对话历史重新计算并计费。一个用于内部追踪计费状态的字符串，意外地“吃掉”了整个提示词缓存系统。

事件的荒谬之处不在于bug本身——大型软件难免有缺陷。真正的讽刺在于，一群外部开发者利用反编译工具，竟比这家世界级的AI公司更早定位到问题的根源。

战略误判：当定价动摇了信任基石

就在社区忙于“捉虫”的同时，Anthropic在产品战略上又走了一步错棋。

4月22日，Anthropic进行了一次A/B测试，试图将Claude Code从20美元的Pro套餐中移除，绑定到100美元或200美元的Max套餐。从商业逻辑上看，这完全合理，因为Claude Code单用户的真实token成本早已远超20美元。

然而，Anthropic低估了一点：Claude Code的口碑，很大程度上正是建立在“仅需20美元就能用上Opus模型”这一承诺之上的。测试上线几小时内，Hacker News和Reddit上的愤怒达到了顶点。开发者Simon Willison当天在博客中写道：“Anthropic无意中，给OpenAI递上了一个巨大的营销优势。”这句话在一周内被反复引用。

尽管Anthropic在几小时内紧急回滚，但伤害已然造成。用户与Claude Code之间那层关于“20美元可用性”的基础信任，被亲手撬动了一次。

OpenAI的反应则迅速而犀利。Sam Altman当晚仅用两个词回应：“ok boomer.”

平心而论，Anthropic的初衷可以理解。Opus 4.7单次推理的token成本高昂，单个用户的实际消耗极易突破20美元的上限，调整套餐结构是为业务减压。但他们忽略了一个关键事实：对许多用户而言，20美元套餐已从一项定价策略，演变为一种社区共识和信任象征。动摇它，就等于动摇了信任本身。

OpenAI的节奏：将简单做到极致

那么，过去的两个月，Codex在做什么？

如果把时间线拉长，会发现OpenAI在Codex上的推进呈现出一种“均匀的贪婪”。自2025年4月Codex CLI开源以来，其进化一直在加速。到了4月16日的更新后，Codex已不再是一个简单的命令行工具，而是一个能控制整台电脑、内置浏览器、记忆屏幕活动、并与90多个第三方插件互通的“AI超级应用”。

OpenAI总裁Greg Brockman在4月18日明确表示，Codex已经从“代码补全工具”演进为“完整的智能IDE”。更具说服力的是Greg个人的选择——这位写了二十年Emacs的资深开发者，在2月19日公开宣布，他的主要工作环境已从Emacs加终端，切换到了Codex桌面版。这对社区而言，是一种无声却有力的站台。

在多个为Codex摇旗呐喊的推文下，Sam Altman都留下了同一句评论：“更多东西还在路上。”两位创始人如此同步、密集地为同一款产品发声，在OpenAI历史上并不多见，上一次出现类似阵仗，还是ChatGPT刚刚发布的时候。

赢在体验，而非代码

必须承认，从纯技术角度看，Codex并未全面胜出。

前文提到的开发者盲测显示，尽管65.3%的人偏好Codex，但在匿名的代码质量测试中，Claude Code却以67%的胜率领先。在token效率上，完成同样的Express.js重构，Claude Code的消耗是Codex的4倍多。

将这些数据放在一起，故事就完整了：Codex反超的，并非“写出更优的代码”，而是“以更低的成本、更快的速度、更稳定的连接写完代码”。Anthropic在过去六个月反复证明了其模型在“正确性”上的冠军地位。但在用户每天打开终端的那一刻，那个“能否不被意外中断地完成工作”的根本问题上，Codex用一种看似笨拙的方式赢了——稳住价格、放开额度、优化token效率，然后等待对手犯错。

Hacker News上的用户反馈很能说明问题。用户@d-lo写道：“过去几周，我已经基本从Claude Code（Opus 4.6）切换到Codex（GPT-5.4 High）了。”另一位用户@antoineMoPa说得更直接：“最近两周Claude变得相当慢，所以我换到了codex。”这些都不是刻意的宣言，而是用户体感最真实的报告。

4月29日，Sam Altman发出了那条著名的推文：“感觉Codex正在迎来它的ChatGPT时刻。”OpenAI自己最清楚“ChatGPT时刻”意味着什么。2024年11月30日发布的ChatGPT，当时并非技术最强的产品，但它却是第一个让所有人都能轻松上手的产品。将一个工具从专业人士的利器，转变为大众下意识的首选，这道门槛极高。一旦跨过，市场格局便会重塑。

这条推文的发布时间点也值得玩味：4月29日，距离Anthropic的Pro套餐风波正好一周。一周前对手公开认错并回滚，一周后OpenAI的CEO便用“ChatGPT时刻”来宣告自家产品抵达临界点。Greg Brockman也在同期持续发声，他在4月26日写道：“Codex empowers anyone to build.” 关键不在于“构建”，而在于“任何人”。就在半个月前，“任何人”这个标签还属于Claude Code，凭的正是“任何人只需20美元就能用上Opus”。如今，这个标签已然易主。