OpenAI此次动作虽然略显突然,但若仔细推敲,实则完全符合其战略逻辑。
在最新发布的版本中,Agents SDK经历了一次彻底的架构重构。原生harness、原生沙盒、Codex级别的文件系统工具,以及七家头部沙盒厂商的一键集成——这些特性同时上线,释放的信号极为明确。

回顾今年3月初,GPT-5.4携原生computer use功能高调亮相后,开发者们始终在抱怨一件事:模型确实可以操控电脑了,但Agent究竟运行在哪台机器上?如何确保它稳定执行不出问题?这些基础能力仍需开发者自行拼凑一套框架来支撑。
今晚,OpenAI亲手填平了这个缺口。

用一句话概括:OpenAI本次将Agents SDK从“聊天机器人的玩具”全面升级为“生产级Agent的基础平台”。harness负责控制流、模型调用、工具路由以及暂停恢复;沙盒则承担文件读写、环境依赖安装、代码运行等任务。两层架构实现完全解耦。
更具冲击力的是,这一刀同时砍向了LangChain、CrewAI、LangGraph等第三方Agent框架。OpenAI亲自下场构建基础设施,留给第三方框架的生存空间正在肉眼可见地收窄。
从“聊天机器人的玩具”到生产级基础架构
在深入讨论本次升级之前,有必要先厘清原版Agents SDK的真实定位。
2025年3月,OpenAI首次推出Agents SDK,主打轻量化、低抽象、只需几行Python即可快速上手。但那个版本的SDK本质上是为聊天机器人场景量身定制的。
一年多过去,大模型能力发生了翻天覆地的变化——如今可以连续运行数小时、数天甚至数周。当初为聊天机器人设计的SDK自然难以跟上这种节奏。

此次重写的核心只聚焦于两件事。
第一,为模型配备一个完整的运行框架——harness。其中包括:可配置的记忆机制、感知沙盒的编排能力、类似Codex的文件系统工具、通过MCP调用工具、通过skills渐进式信息披露、通过AGENTS.md自定义指令,以及shell工具执行代码、apply patch工具编辑文件等功能——全部打包进了SDK的原生支持模块。
熟悉Claude Code和Codex的开发者看到这份清单应该不会感到陌生。没错,OpenAI正是将Codex在过去一年中踩过的坑、积累的最佳实践,顺手产品化后塞进了SDK。

第二,将harness与计算资源彻底分离。harness运行在你的可信基础设施中,负责模型调用、审批流程、追踪监控以及运行状态管理。compute则作为独立的沙盒,专门负责读写文件、执行命令、安装依赖包、产出结果。
两层之间采用标准化接口,API密钥和敏感凭证根本不会进入模型生成代码实际执行的那个环境。

最终结果是:沙盒内部既没有API密钥,也不包含任何敏感凭证。沙盒完全隔离,甚至可以切断网络连接,没有任何对外流量。
这并非安全领域的小修小补,而是整个Agent架构的一次范式变革。


900页保险保单,100%提取;半数PR由Agent生成
harness/compute分离带来的第一个直接成果,就是沙盒供应商的生态版图在一夜之间铺开。
本次发布中,Blaxel、Cloudflare、Daytona、E2B、Modal、Runloop、Vercel这七家沙盒厂商全部被纳入了最新的支持名单。

七家厂商能够同步接入,关键在于OpenAI提供了一个名为Manifest的抽象层——这是一份描述Agent工作区配置的清单。哪些本地文件需要挂载、从哪个云存储拉取数据、产物输出到何处,全部写入这份Manifest中。AWS S3、Google Cloud Storage、Azure Blob Storage、Cloudflare R2全覆盖。
最关键的是,这份Manifest与具体的沙盒供应商解耦。今天用E2B编写的Agent,明天想切换到Modal运行,无需重写代码,只需修改一行配置。哪家沙盒更便宜、哪家离数据更近,就切换到哪家。
官方提供了一个最小化示例:让一个Agent进入本地沙盒,挂载一个财报目录,对比FY2025和FY2024的三项财务指标。核心代码不足20行。

另外两个对长周期任务尤为关键的新能力是:让沙盒容器即便崩溃也能从检查点恢复的“快照与状态恢复”功能;以及解决扩展性问题的“多沙盒并行+子Agent隔离环境”方案。
自此,Agent首次拥有了“掉线续命”和“多分身协同作战”的原生能力。
在一篇技术长文中,Modal技术团队成员Erik Dunteman顺带透露了一个细节——Ramp已经利用Modal运行了一支后台编码Agent大军,公司超过一半的PR都是由这些Agent自主创建的。
不仅如此,Stripe今年早些时候也曾披露,其内部的AI Agent每周产出超过1000个PR。
这两家公司的共同点是:在获得成熟的Agent基础设施之后,业务团队的生产力出现了断层式的跃升。
如今,OpenAI将这些曾经只有头部企业才能自行搭建的基础设施,变成了SDK中开箱即用的默认配置。

FurtherAI的CTO Sashank Gondala也透露,他们的Agent成功处理了一份900多页的保险理赔记录,提取成功率达到了100%。900多页、100%、保险理赔记录——这三个词组合在一起,懂行的保险从业者一眼就能看出分量。这是行业中最难啃的文档之一,以往跑到某一页就崩溃是常态。

Tomoro AI的研发工程师Douglas Adams给出了另一组硬核数据:实现相同能力的Agent,现在所需的代码量比以前减少了6倍。

Box的开发者关系负责人Carter Rabasa则分享了一组业务数据:他使用bash和python作为工具,让Agent在沙盒里完整跑了一套发票对账业务流程。令人意外的是,第一轮试水就成功了。
沙盒对于运行Agent生成的代码来说,效果非常理想。

OpenAI进军基础设施,LangChain们无处可躲
谈到这个层面,本次发布对行业格局的真正冲击才完全显现。
LangChain、LangGraph、CrewAI、AutoGen这些第三方Agent框架,过去一年靠什么生存?答案是用各自的方案填补OpenAI原生SDK在“生产可用性”上的空白——编排、记忆管理、护栏、追踪、多Agent协作,这些都是第三方框架的核心战场。
现在,OpenAI一次性将这些主战场全部接管。他们要做的是Agent世界的基础设施层。第三方框架从此要么向更高层(编排、垂直场景)发展,要么向更低层(专用沙盒、专用工具)下沉,夹在中间的那块地板已经被OpenAI自己牢牢踩实。
而且,OpenAI口中所谓的“兼容所有沙盒服务商”,本质上就是把沙盒供应商纳入OpenAI的生态版图。今天或许是合作伙伴,但明天很可能就只是OpenAI生态下的“组件供应商”了。
Python先行,TypeScript仍在排队
当然,一切目前并不完美。harness和sandbox的新能力首发只支持Python,TypeScript版本排在后续更新计划中;SDK至今仍然停留在0.Y.Z版本号。
但方向已经极为清晰:GPT-5.4带着原生computer use登场,而Agents SDK则为它配齐了真正的运行环境。
下一步欠缺的,只是更多开发者将业务逻辑搭建在这个基础设施之上。
从此,做Agent框架的创业公司需要重新审视自身定位;做沙盒的供应商要开始评估OpenAI的流量能否承接;做业务层Agent应用的团队则需要权衡是否迁移。
GPT-5.4发布那天,曾被一些人评价为“没有惊喜的例行升级”。40天后回头再看,真正的惊喜,今天才到。
参考资料:
https://techcrunch.com/2026/04/15/openai-updates-its-agents-sdk-to-help-enterprises-build-safer-more-capable-agents/
https://modal.com/blog/building-with-modal-and-the-openai-agent-sdk
https://openai.com/index/the-next-evolution-of-the-agents-sdk/
https://x.com/OpenAIDevs/status/2044466699785920937
https://x.com/snsf/status/2044514160034324793
