OpenAI推出GPT-5.4和Codex同款Harness

时间：2026-06-16 13:43

OpenAI此次动作虽然略显突然，但若仔细推敲，实则完全符合其战略逻辑。在最新发布的版本中，Agents SDK经历了一次彻底的架构重构。原生harness、原生沙盒、Codex级别的文件系统工具，以及七家头部沙盒厂商的一键集成——这些特性同时上线，释放的信号极为明确。回顾今年3月初，GPT-5

OpenAI此次动作虽然略显突然，但若仔细推敲，实则完全符合其战略逻辑。

在最新发布的版本中，Agents SDK经历了一次彻底的架构重构。原生harness、原生沙盒、Codex级别的文件系统工具，以及七家头部沙盒厂商的一键集成——这些特性同时上线，释放的信号极为明确。

回顾今年3月初，GPT-5.4携原生computer use功能高调亮相后，开发者们始终在抱怨一件事：模型确实可以操控电脑了，但Agent究竟运行在哪台机器上？如何确保它稳定执行不出问题？这些基础能力仍需开发者自行拼凑一套框架来支撑。

今晚，OpenAI亲手填平了这个缺口。

用一句话概括：OpenAI本次将Agents SDK从“聊天机器人的玩具”全面升级为“生产级Agent的基础平台”。harness负责控制流、模型调用、工具路由以及暂停恢复；沙盒则承担文件读写、环境依赖安装、代码运行等任务。两层架构实现完全解耦。

更具冲击力的是，这一刀同时砍向了LangChain、CrewAI、LangGraph等第三方Agent框架。OpenAI亲自下场构建基础设施，留给第三方框架的生存空间正在肉眼可见地收窄。

从“聊天机器人的玩具”到生产级基础架构

在深入讨论本次升级之前，有必要先厘清原版Agents SDK的真实定位。

2025年3月，OpenAI首次推出Agents SDK，主打轻量化、低抽象、只需几行Python即可快速上手。但那个版本的SDK本质上是为聊天机器人场景量身定制的。

一年多过去，大模型能力发生了翻天覆地的变化——如今可以连续运行数小时、数天甚至数周。当初为聊天机器人设计的SDK自然难以跟上这种节奏。

此次重写的核心只聚焦于两件事。

第一，为模型配备一个完整的运行框架——harness。其中包括：可配置的记忆机制、感知沙盒的编排能力、类似Codex的文件系统工具、通过MCP调用工具、通过skills渐进式信息披露、通过AGENTS.md自定义指令，以及shell工具执行代码、apply patch工具编辑文件等功能——全部打包进了SDK的原生支持模块。

熟悉Claude Code和Codex的开发者看到这份清单应该不会感到陌生。没错，OpenAI正是将Codex在过去一年中踩过的坑、积累的最佳实践，顺手产品化后塞进了SDK。

第二，将harness与计算资源彻底分离。harness运行在你的可信基础设施中，负责模型调用、审批流程、追踪监控以及运行状态管理。compute则作为独立的沙盒，专门负责读写文件、执行命令、安装依赖包、产出结果。

两层之间采用标准化接口，API密钥和敏感凭证根本不会进入模型生成代码实际执行的那个环境。

最终结果是：沙盒内部既没有API密钥，也不包含任何敏感凭证。沙盒完全隔离，甚至可以切断网络连接，没有任何对外流量。

这并非安全领域的小修小补，而是整个Agent架构的一次范式变革。

900页保险保单，100%提取；半数PR由Agent生成

harness/compute分离带来的第一个直接成果，就是沙盒供应商的生态版图在一夜之间铺开。

本次发布中，Blaxel、Cloudflare、Daytona、E2B、Modal、Runloop、Vercel这七家沙盒厂商全部被纳入了最新的支持名单。

七家厂商能够同步接入，关键在于OpenAI提供了一个名为Manifest的抽象层——这是一份描述Agent工作区配置的清单。哪些本地文件需要挂载、从哪个云存储拉取数据、产物输出到何处，全部写入这份Manifest中。AWS S3、Google Cloud Storage、Azure Blob Storage、Cloudflare R2全覆盖。

最关键的是，这份Manifest与具体的沙盒供应商解耦。今天用E2B编写的Agent，明天想切换到Modal运行，无需重写代码，只需修改一行配置。哪家沙盒更便宜、哪家离数据更近，就切换到哪家。

官方提供了一个最小化示例：让一个Agent进入本地沙盒，挂载一个财报目录，对比FY2025和FY2024的三项财务指标。核心代码不足20行。

另外两个对长周期任务尤为关键的新能力是：让沙盒容器即便崩溃也能从检查点恢复的“快照与状态恢复”功能；以及解决扩展性问题的“多沙盒并行+子Agent隔离环境”方案。

自此，Agent首次拥有了“掉线续命”和“多分身协同作战”的原生能力。

在一篇技术长文中，Modal技术团队成员Erik Dunteman顺带透露了一个细节——Ramp已经利用Modal运行了一支后台编码Agent大军，公司超过一半的PR都是由这些Agent自主创建的。

不仅如此，Stripe今年早些时候也曾披露，其内部的AI Agent每周产出超过1000个PR。

这两家公司的共同点是：在获得成熟的Agent基础设施之后，业务团队的生产力出现了断层式的跃升。

如今，OpenAI将这些曾经只有头部企业才能自行搭建的基础设施，变成了SDK中开箱即用的默认配置。

FurtherAI的CTO Sashank Gondala也透露，他们的Agent成功处理了一份900多页的保险理赔记录，提取成功率达到了100%。900多页、100%、保险理赔记录——这三个词组合在一起，懂行的保险从业者一眼就能看出分量。这是行业中最难啃的文档之一，以往跑到某一页就崩溃是常态。

Tomoro AI的研发工程师Douglas Adams给出了另一组硬核数据：实现相同能力的Agent，现在所需的代码量比以前减少了6倍。

Box的开发者关系负责人Carter Rabasa则分享了一组业务数据：他使用bash和python作为工具，让Agent在沙盒里完整跑了一套发票对账业务流程。令人意外的是，第一轮试水就成功了。

沙盒对于运行Agent生成的代码来说，效果非常理想。

OpenAI进军基础设施，LangChain们无处可躲

谈到这个层面，本次发布对行业格局的真正冲击才完全显现。

LangChain、LangGraph、CrewAI、AutoGen这些第三方Agent框架，过去一年靠什么生存？答案是用各自的方案填补OpenAI原生SDK在“生产可用性”上的空白——编排、记忆管理、护栏、追踪、多Agent协作，这些都是第三方框架的核心战场。

现在，OpenAI一次性将这些主战场全部接管。他们要做的是Agent世界的基础设施层。第三方框架从此要么向更高层（编排、垂直场景）发展，要么向更低层（专用沙盒、专用工具）下沉，夹在中间的那块地板已经被OpenAI自己牢牢踩实。

而且，OpenAI口中所谓的“兼容所有沙盒服务商”，本质上就是把沙盒供应商纳入OpenAI的生态版图。今天或许是合作伙伴，但明天很可能就只是OpenAI生态下的“组件供应商”了。

Python先行，TypeScript仍在排队

当然，一切目前并不完美。harness和sandbox的新能力首发只支持Python，TypeScript版本排在后续更新计划中；SDK至今仍然停留在0.Y.Z版本号。

但方向已经极为清晰：GPT-5.4带着原生computer use登场，而Agents SDK则为它配齐了真正的运行环境。

下一步欠缺的，只是更多开发者将业务逻辑搭建在这个基础设施之上。

从此，做Agent框架的创业公司需要重新审视自身定位；做沙盒的供应商要开始评估OpenAI的流量能否承接；做业务层Agent应用的团队则需要权衡是否迁移。

GPT-5.4发布那天，曾被一些人评价为“没有惊喜的例行升级”。40天后回头再看，真正的惊喜，今天才到。

参考资料：

https://techcrunch.com/2026/04/15/openai-updates-its-agents-sdk-to-help-enterprises-build-safer-more-capable-agents/

https://modal.com/blog/building-with-modal-and-the-openai-agent-sdk

https://openai.com/index/the-next-evolution-of-the-agents-sdk/

https://x.com/OpenAIDevs/status/2044466699785920937

https://x.com/snsf/status/2044514160034324793

来源：https://36kr.com/p/3769362731467272

OpenAI

上一篇Siri被吐槽成内部落后生，200名工程师集体学AI编程备战WWDC26 下一篇据最新传闻iPhone 18 Pro可变光圈关键组件已开始量产

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略，采用“1+N+X”布局，联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm，体重69kg，移动速度0 8m s，具备40个自由度，续航超2小时。预计明年一季度发布首款车载组件机器人，已在广州车展展示。

业界动态 · 2026-06-29

中国信科刷新光通信世界纪录每秒可下载1.4万部4K电影

3月25日，光通信领域迎来又一个里程碑：中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司，成功实现了2 5Pb s 24芯光纤超大容量实时光传输，再次刷新了世界纪录。这一研究成果不仅入选国际顶级光通信会议OFC（2026）并荣获“高分论文”称号，还受国际权威SCI

业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查，焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿，不意味着立即召回，但可能引发后续监管措施。

业界动态 · 2026-06-29

doc个人图书馆停服创始人称无偿转让失败

运营长达20年，累计服务8000万用户的360doc个人图书馆，最终还是迎来了谢幕时刻。2026年5月1日，这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失，而是始终未能寻得一位能够安全接管的合适人选。创始人蔡智在告别信中坦言，近两个月来，他一直在尝试将360doc无偿转

业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月，艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证，紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后，折射出一个清晰的市场趋势：移动办公、户外出行、宿舍上网等场景的需求正在快速增长，随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿