DeepSeek V4、GPT5.5会师：通向AGI的门票只有Coding？

时间：2026-04-24 21:14

Coding为何成为Agent时代的制高点今天，AI行业迎来了一个颇具意味的“撞车”事件：OpenAI发布了GPT-5 5，而DeepSeek的V4预览版也同日亮相并宣布开源。 OpenAI将GPT-5 5定义为“我们最智能的模型”，而在众多能力维度中，它选择重点强调了一项：Agentic Cod

Coding为何成为Agent时代的制高点

今天，AI行业迎来了一个颇具意味的“撞车”事件：OpenAI发布了GPT-5.5，而DeepSeek的V4预览版也同日亮相并宣布开源。

OpenAI将GPT-5.5定义为“我们最智能的模型”，而在众多能力维度中，它选择重点强调了一项：Agentic Coding。官方数据显示，在评估复杂命令行工作流的Terminal-Bench 2.0上，其得分达到82.7%；在测试真实GitHub问题解决能力的SWE-Bench Pro上，也取得了58.6%的成绩。

无独有偶，DeepSeek在其公告中，也将“Agent与Coding”能力放在了首位。公开资料显示，DeepSeek-V4-Pro已成为该公司内部员工使用的Agentic Coding模型，并针对Claude Code、OpenClaw等主流Agent产品进行了专项优化，在代码与文档生成任务上表现均有提升。

这看似巧合的背后，实则揭示了AI行业在过去一年中一个清晰的路径收敛：从“什么都想做”到“重点做Coding”。许多分析止步于“编程市场大”、“开发者付费意愿强”这类表层原因，但这并不足以解释，为何两大巨头会在同一天不约而同地用“Agentic Coding”来定义自己的旗舰产品。

更深层的原因在于，Coding之所以能成为共识赛道，是因为Agent的本质就是代码理解、生成与程序综合。一个在代码任务上表现卓越的模型，天然就具备了分解复杂任务、调用工具、处理异常的逻辑推理能力——而这些能力，恰恰是所有Agent场景的核心要素。可以说，在Coding赛道上建立的技术优势，会自动转化为在整个Agent生态中的乘数效应。

这一技术前提，也解释了为何商业模式层面的矛盾会在此刻集中爆发。最初为Chatbot时代设计的“Coding Plan”（编程套餐），在Agent时代全新的调用模式下，其定价逻辑从根本上失效了。

3月23日，MiniMax率先宣布将其Coding Plan升级为Token Plan（按Token用量计费）。随后，一系列连锁反应迅速展开：阿里云Coding Plan的入口从百炼平台消失；智谱AI停止了无周限额老套餐的续订；GitHub则宣布暂停Copilot Pro系列计划的新用户注册，并从Pro套餐中移除了Claude Opus模型。

动作如此整齐划一，背后是同一个结构性矛盾被Agent的使用模式点燃：固定的月费，遇上了近乎无上限的算力消耗。

从Coding Plan到Token Plan的切换，表面是从“补贴换市场”转向“按量收费”，实质上是整个行业从“烧钱抢入口”阶段，迈入了“构建可持续商业模式”的新阶段。对云厂商而言，这是回归自己最熟悉的生意；对整个AI行业来说，这意味着AI编程竞争在商业模式层面完成了第一次洗牌。

Coding为何成为Agent时代的制高点

曾几何时，视频生成被视为AI最具想象力的方向，但最终，算力没有为纯粹的想象力买单。今年3月，OpenAI宣布关停Sora项目，并终止了与迪士尼价值10亿美元的战略合作。几乎在同一时期，谷歌联合创始人谢尔盖·布林紧急组建了一支内部突击队，目标直指AI Coding，要求团队“必须果断转向”。

据The Information披露，这支队伍的成员名单中甚至包括DeepMind的CTO，其唯一目标就是夺回AI Coding的制高点。而就在4月21日，马斯克的SpaceX宣布以600亿美元的天价收购了明星AI编程工具Cursor。

资源为何如此迅速地向Coding集中？这源于两套截然不同的价值创造逻辑。互联网时代的逻辑是流量、转化率、用户平均收入，终点是广告或订阅费，天花板取决于用户总时长和广告预算。而Agent时代的逻辑则是任务价值、完成率、平台抽成，终点是替代的人力成本，其天花板理论上是全球白领的工资总额。这两套逻辑之间的巨大差距，直接驱动了资源的重新配置。

Coding是极少数能同时满足“高频”与“高复杂度”两大条件的应用场景。许多AI产品面临的现实困境是，用户尝鲜后便不再高频使用，场景本身限制了粘性。但编程不同。职业开发者每天在集成开发环境中工作长达数小时，调试、重构、编写文档、代码审查……每一个环节都是AI潜在的介入点，调用频率天然就高。

更重要的是，代码的价值可以被精确衡量。一段代码能否运行，一个功能是否实现，这些都是二进制的结果，几乎没有模糊的中间地带。这种可量化性，使得开发者（及其背后的企业）愿意为AI编程工具支付远高于其他AI产品的费用，因为它直接替代了可计算的工时成本，投资回报率清晰可见。

正如百度秒哒产品总经理朱广翔去年所言，Chatbot的价值在于回答与交流，而Coding直接生成最终的应用和解决方案，与研发、生产、供应链、销售、服务全环节相关，“是生产力环节，能创造新的需求价值和空间，因此天花板更高”。

不过，AI Coding的战略价值远不止于此。其真正的威力在于，在Coding赛道上建立的技术优势，会在整个Agent生态中产生乘数效应。一个Agent在执行任何复杂任务时，实质上都是在持续地调度和生成代码——无论是调用工具API、处理文件系统、协调并行子任务，还是验证结果与处理异常，底层操作都离不开代码的理解与生成能力。

《晚点LatePost》曾报道，字节跳动在引进顶尖AI人才郭达雅时，其内部定位正是将他置于整合Agent与Coding能力的核心位置，而不仅仅是担任一个代码模型的技术负责人。这一定位本身就颇具深意。

而本轮“Coding热”的引爆者Anthropic，则用商业数据将这个判断变成了资本市场的共识。Claude Code于去年5月才正式上线，到2026年2月，其年度经常性收入已达25亿美元，增速超过了Salesforce和Slack的早期阶段，并在不到一年内超越了Cursor花费两年多才达到的收入规模。

行业分析机构SemiAnalysis估算，目前GitHub上约4%的公开代码提交由Claude Code完成；按此趋势，到2026年底，这一比例可能超过20%。更具说服力的是公司层面的对比：2025年底，Anthropic全年收入90亿美元，而OpenAI为214亿美元，差距悬殊。但仅仅四个月后，Anthropic的年度经常性收入暴涨至300亿美元，反而超过了OpenAI在2月份披露的250亿美元。

在国内，这一认知的扩散经历了一个明显的时间差。一批大模型创业公司比大型互联网公司更早、更敏锐地押注了这一方向。在Claude Code诞生两个月后，月之暗面发布了Kimi K2模型并将其开源，明确将“Coding加Agent”立为模型主轴，智谱AI也采取了类似策略。

到2026年初，这些早行者的先发优势开始显现。智谱自发布GLM-5后已连续三次涨价，即便如此，市场依然供不应求，其CEO张鹏在业绩说明会上表示调用量增长了400%。月之暗面旗下的K2.5大模型发布不到一个月，累计收入便超过了2025年全年总额。

大厂的转变虽然稍晚，但力度更大。《晚点LatePost》报道称，接近字节跳动相关团队的员工透露，今年1月底，CEO梁汝波在全员会上明确表态，2026年的重中之重是让AI模型能力达到行业前列。随后，字节便从DeepSeek挖来了郭达雅。

郭达雅是代码智能与大模型推理方向的顶尖研究者。他在DeepSeek期间深度参与了V3、R1以及Coder、Math等模型的研发，其团队在DeepSeek-Math中提出的GRPO算法，后来被应用于DeepSeek R1的训练。他选择离开的原因之一，是当时DeepSeek内部对Agent的优先级设置不高，而他本人则非常看好这个方向。

随着郭达雅的加入，字节内部正启动针对Agent和Coding能力的组织整合。这一动作的意义，不仅在于公开宣告对该方向的战略承诺，更在于通过调整人才结构，表明了其对下一代竞争维度的判断。

走向失控是Coding Plan的必然

Coding Plan的崩溃，并非偶然。它是一个在设计之初就内嵌了矛盾商业模型，在Agent彻底改变使用模式后，矛盾被迫浮出水面。

订阅制商业模式的基础假设在于，平台的真实服务成本远低于标价，因为大多数用户会付费但不会“用满”服务。轻度用户的订阅费，覆盖了重度用户的服务成本，整体毛利得以维持。这套逻辑在传统SaaS时代是成立的，因为软件的边际交付成本几乎为零。

然而，Coding Plan简单套用了SaaS的定价逻辑，却应用到了一个底层经济学完全不同的场景——算力消耗。当使用模式还停留在“代码补全”阶段时，矛盾尚可被掩盖。传统的代码补全是单次请求，用户输入几个字符，模型返回一段建议，Token消耗可控。

但Agent模式截然不同。一个复杂任务往往包含规划、拆解、多步执行、并行子任务、结果验证和错误重试等多个环节，串联起来的Token消耗可能是传统补全的几十甚至上百倍。GitHub在其官方博客中说得非常直白：长时间运行、高度并行化的Agent会话，其资源消耗远超原有套餐架构所能支撑的上限。

此外，还有一个被严重低估的成本问题：OpenClaw等Agent框架的接入，系统性地破坏了云端的缓存命中率。在正常的编程场景中，由于上下文高度连贯，缓存命中率通常能达到85%至90%以上，Claude Code很多用户的命中率甚至能稳定在90%以上。缓存命中的计算成本通常只有正常输入的十分之一，因此实际成本远低于按全额输入估算的数字。

但OpenClaw类框架的调用模式不同。框架发出的请求前缀会因版本号、构建时间和A/B测试变量的持续变化而高度不稳定，导致缓存命中率大幅下降。结果就是，所有用户支付相同的固定月费，但Coding Plan的实际成本却因用户接入的框架类型不同而产生剧烈波动。

智谱AI的应对轨迹，清晰地展示了这个矛盾如何从可控走向失控。其GLM Coding Plan的无周限额老套餐宣布于4月30日停止自动续订。平台在公告中承认：“随着使用规模的持续增长，老套餐原有的供给方式已难以支撑长期稳定的服务。” 为此，平台为受影响的早期订阅用户赠送了两个月的新套餐权益。

这显然是由成本压力触发的被动调整，而非主动的产品迭代。与此同时，智谱将Coding Plan的使用场景明确限制在AI编码和IDE工具中，排除了OpenClaw等通用Agent场景。这条限制本身，就指明了问题的症结所在。

这一轮集体政策收紧的速度，超出了许多人的预期。一位行业亲历者描述道：“一个季度之内，从补贴抢人到集体收紧，速度比我预想的快得多。”

OpenAI在这一轮竞争中选择了不同的策略。Sam Altman在4月初宣布Codex达到300万周活用户后，随即重置了所有套餐的用量限制，并承诺每新增100万用户就再重置一次。社区用户反馈在10天内经历了4次额度重置。Plus用户享受促销期10倍用量，Pro用户享受2倍用量，但促销截止至5月31日，之后的策略尚不明朗。

Codex负责人Tibo在X上表示，OpenAI拥有足够的算力和强大的模型来支持Codex的运作。这与行业分析吻合：OpenAI的心态或许是，Sam Altman总能筹集到更多资金来支持算力扩张，这与Anthropic强调训练和运行效率的路径形成了鲜明对比。

相比之下，字节跳动火山引擎的Coding Plan在多家同类产品中保持了相对稳定的运营状态。但这一例外有其特殊背景：字节的自有算力基础设施与智谱等初创厂商不在同一量级。此外，根据《晚点LatePost》的报道，火山引擎很早就通过与企业客户的协作计划意识到，B端客户存在大量Agentic Coding需求，这些真实的使用数据反向推动了其模型能力的演进。

对火山引擎而言，Coding Plan同时承担着锁定开发者生态和获取高质量训练数据的战略功能，短期的成本压力被更长期的数据资产价值所对冲。但这只是大规模算力基础设施持有者的特殊优势，并非行业可普遍复制的路径。

终局是按结果付费

用Token Plan取代Coding Plan，只是这场竞争的中场哨声，远非终局。

Coding Plan的根本矛盾在于收入固定而成本浮动。一旦模型能力迭代或用户习惯改变，成本可能在收入不变的情况下飙升。Token Plan是消除这一矛盾最直接的方式，平台的毛利率由Token单价与推理成本之间的差值决定，两者都可以被精确预测和控制。

从商业化角度看，Coding Plan本质上是一种补贴策略，用低于成本的价格换取用户习惯的养成和训练数据的积累。在这个时间节点切换到Token Plan，意味着行业普遍认为，以补贴换取市场的阶段已经结束，用户的支付意愿与实际使用价值之间，已经存在足够的空间来支撑一个可持续的商业模型。

Anthropic的联合创始人罗福莉在此过程中扮演了行业定价“吹哨人”的角色。她主张，在弄清楚如何在不造成巨额亏损的情况下为Coding方案定价之前，不要盲目竞相压低价格、以极低的Token价格敞开大门。这看似对用户极具吸引力，“但这是一个陷阱，Anthropic刚刚摆脱的那个陷阱”。

据《腾讯科技》报道，小米MiMo大模型的Token Plan是这一趋势的典型案例。在为期两周的免费推广期间，MiMo-V2-Pro在OpenRouter平台上的单周Token消耗量突破4万亿，在编程领域的市场份额一度超过30%。然而，免费期结束后，周调用量从峰值大幅下滑，这印证了从免费到付费的转化率，是所有大模型公司面临的共同挑战。

雷军在MiMo-V2-Pro发布当天，亲自宣布了Max档659元/月（国际定价100美元/月）的订阅方案，直接锚定了Anthropic Claude Max 5x套餐的价格。罗福莉在随后的发声中也解释了这套设计的逻辑：Token Plan支持第三方框架接入，但严格按Token配额计费，用户用多少付多少，避免了订阅制下“薅羊毛”导致的成本倒挂。

对于以阿里云为首的云厂商而言，这次切换还有另一层意义：回归自己最熟悉的战场。维护一个经济模型持续承压的订阅服务，需要不断通过运营手段弥补结构性亏损，这并非云厂商的专业领域。相比之下，腾讯云和阿里云已经销售了十几年的计算资源包、存储包和CDN流量包，拥有完整的计量计费、预付费/后付费结算及用量权限管理体系。现在，只需要把计量单位从“CPU核时”或“GPU小时”换成“Token”，整套体系就能几乎无缝地迁移过来。

Token Plan对技术创新的激励方向也更为合理。在Coding Plan模式下，平台推出更强的模型会增加推理成本，却无法直接增加订阅收入，这等于在定价机制上“惩罚”技术进步。而在Token Plan里，更强的模型会刺激用户消耗更多Token，从而带来更多收入，形成一个正向循环：更好的模型驱动更多消耗，更多消耗产生更多收入，更多收入支撑更进一步的研发投入。这是Coding Plan从未解决的基础性激励错配问题。

目前，舆论对Token Plan的转变存在一些困惑，但这本质上是时间带来的阵痛，而非方向性问题。作为Coding Agent的早期玩家，Cursor的转变比大多数中国厂商早了大约一年。它去年就从按次计费转向了按量计费，今年又推出了Ultra档位（200美元/月）。这印证了随着Agent使用强度的上升，定价模式的演变是必然趋势。

对中国市场而言，OpenClaw在本地的爆火大幅压缩了这一演变的时间窗口。这场原本可能需要两年完成的行业过渡，被压缩在了几个季度内。这种压缩的代价，是许多厂商来不及设计平滑的过渡方案，只能被动应对，导致部分老用户体验出现波折。阿里、智谱等厂商在套餐迁移时附带的用户补偿方案，正是这种代价的具体体现。

然而，从更长的历史维度看，Token Plan恐怕也只能算是AI编程竞争中的间形态，而非终极形态。未来更理想的模式或许是“按结果付费”。就像打车时乘客无需关心消耗了多少升汽油，使用AI解决问题时，用户或许也不必关心消耗了多少Token。

当前按Token计费的本质，是对“算力使用权”的定价，用户购买的是让模型“思考”一次的机会。至于思考得多深、多好，最终是否解决了问题，并不在这个价格的承诺范围内。正如前文所述，在AI编程场景下，“结果”是可以被精确定义的：代码是否成功运行、Bug是否修复、功能是否实现。一旦能够可靠地衡量这些结果，按结果定价在技术上就是可行的。

届时，“Token效率”将成为模型能力的正式评价维度之一。因为完成同等任务结果所消耗的Token更少，意味着在固定的结果定价下，平台能获得更高的毛利率。GPT-5.5的发布数据为此提供了一个前瞻性参照。OpenAI在公告中特别强调，GPT-5.5在完成同等Codex任务时，使用的Token数量更少，并将此列为核心能力，与“更高的准确率”并列。

DeepSeek V4的公告同样提到，其新的注意力机制“相比于传统方法，大幅降低了对计算和显存的需求”。两家同日发布的最强模型，都不约而同地将计算效率作为旗舰能力进行宣传，这重新定义了“更好的模型”的标准。

未来的Coding Agent竞争，效率与能力，将是同一张成绩单上并重的两个指标。

来源：https://36kr.com/p/3780691165459201

DeepSeek V

上一篇何恺明、谢赛宁署名，Google DeepMind推出Vision Banana：图像生成器即通才视觉学习者 下一篇智能文本对话机器人

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。