游乐游手机版
首页/业界动态/文章详情

OpenAI推出GPT-5.4和Codex同款Harness

时间:2026-06-16 13:43
OpenAI此次动作虽然略显突然,但若仔细推敲,实则完全符合其战略逻辑。 在最新发布的版本中,Agents SDK经历了一次彻底的架构重构。原生harness、原生沙盒、Codex级别的文件系统工具,以及七家头部沙盒厂商的一键集成——这些特性同时上线,释放的信号极为明确。 回顾今年3月初,GPT-5

OpenAI此次动作虽然略显突然,但若仔细推敲,实则完全符合其战略逻辑。

在最新发布的版本中,Agents SDK经历了一次彻底的架构重构。原生harness、原生沙盒、Codex级别的文件系统工具,以及七家头部沙盒厂商的一键集成——这些特性同时上线,释放的信号极为明确。

回顾今年3月初,GPT-5.4携原生computer use功能高调亮相后,开发者们始终在抱怨一件事:模型确实可以操控电脑了,但Agent究竟运行在哪台机器上?如何确保它稳定执行不出问题?这些基础能力仍需开发者自行拼凑一套框架来支撑。

今晚,OpenAI亲手填平了这个缺口。

用一句话概括:OpenAI本次将Agents SDK从“聊天机器人的玩具”全面升级为“生产级Agent的基础平台”。harness负责控制流、模型调用、工具路由以及暂停恢复;沙盒则承担文件读写、环境依赖安装、代码运行等任务。两层架构实现完全解耦。

更具冲击力的是,这一刀同时砍向了LangChain、CrewAI、LangGraph等第三方Agent框架。OpenAI亲自下场构建基础设施,留给第三方框架的生存空间正在肉眼可见地收窄。

从“聊天机器人的玩具”到生产级基础架构

在深入讨论本次升级之前,有必要先厘清原版Agents SDK的真实定位。

2025年3月,OpenAI首次推出Agents SDK,主打轻量化、低抽象、只需几行Python即可快速上手。但那个版本的SDK本质上是为聊天机器人场景量身定制的。

一年多过去,大模型能力发生了翻天覆地的变化——如今可以连续运行数小时、数天甚至数周。当初为聊天机器人设计的SDK自然难以跟上这种节奏。

此次重写的核心只聚焦于两件事。

第一,为模型配备一个完整的运行框架——harness。其中包括:可配置的记忆机制、感知沙盒的编排能力、类似Codex的文件系统工具、通过MCP调用工具、通过skills渐进式信息披露、通过AGENTS.md自定义指令,以及shell工具执行代码、apply patch工具编辑文件等功能——全部打包进了SDK的原生支持模块。

熟悉Claude Code和Codex的开发者看到这份清单应该不会感到陌生。没错,OpenAI正是将Codex在过去一年中踩过的坑、积累的最佳实践,顺手产品化后塞进了SDK。

第二,将harness与计算资源彻底分离。harness运行在你的可信基础设施中,负责模型调用、审批流程、追踪监控以及运行状态管理。compute则作为独立的沙盒,专门负责读写文件、执行命令、安装依赖包、产出结果。

两层之间采用标准化接口,API密钥和敏感凭证根本不会进入模型生成代码实际执行的那个环境。

最终结果是:沙盒内部既没有API密钥,也不包含任何敏感凭证。沙盒完全隔离,甚至可以切断网络连接,没有任何对外流量。

这并非安全领域的小修小补,而是整个Agent架构的一次范式变革。

900页保险保单,100%提取;半数PR由Agent生成

harness/compute分离带来的第一个直接成果,就是沙盒供应商的生态版图在一夜之间铺开。

本次发布中,Blaxel、Cloudflare、Daytona、E2B、Modal、Runloop、Vercel这七家沙盒厂商全部被纳入了最新的支持名单。

七家厂商能够同步接入,关键在于OpenAI提供了一个名为Manifest的抽象层——这是一份描述Agent工作区配置的清单。哪些本地文件需要挂载、从哪个云存储拉取数据、产物输出到何处,全部写入这份Manifest中。AWS S3、Google Cloud Storage、Azure Blob Storage、Cloudflare R2全覆盖。

最关键的是,这份Manifest与具体的沙盒供应商解耦。今天用E2B编写的Agent,明天想切换到Modal运行,无需重写代码,只需修改一行配置。哪家沙盒更便宜、哪家离数据更近,就切换到哪家。

官方提供了一个最小化示例:让一个Agent进入本地沙盒,挂载一个财报目录,对比FY2025和FY2024的三项财务指标。核心代码不足20行。

另外两个对长周期任务尤为关键的新能力是:让沙盒容器即便崩溃也能从检查点恢复的“快照与状态恢复”功能;以及解决扩展性问题的“多沙盒并行+子Agent隔离环境”方案。

自此,Agent首次拥有了“掉线续命”和“多分身协同作战”的原生能力。

在一篇技术长文中,Modal技术团队成员Erik Dunteman顺带透露了一个细节——Ramp已经利用Modal运行了一支后台编码Agent大军,公司超过一半的PR都是由这些Agent自主创建的。

不仅如此,Stripe今年早些时候也曾披露,其内部的AI Agent每周产出超过1000个PR。

这两家公司的共同点是:在获得成熟的Agent基础设施之后,业务团队的生产力出现了断层式的跃升。

如今,OpenAI将这些曾经只有头部企业才能自行搭建的基础设施,变成了SDK中开箱即用的默认配置。

FurtherAI的CTO Sashank Gondala也透露,他们的Agent成功处理了一份900多页的保险理赔记录,提取成功率达到了100%。900多页、100%、保险理赔记录——这三个词组合在一起,懂行的保险从业者一眼就能看出分量。这是行业中最难啃的文档之一,以往跑到某一页就崩溃是常态。

Tomoro AI的研发工程师Douglas Adams给出了另一组硬核数据:实现相同能力的Agent,现在所需的代码量比以前减少了6倍。

Box的开发者关系负责人Carter Rabasa则分享了一组业务数据:他使用bash和python作为工具,让Agent在沙盒里完整跑了一套发票对账业务流程。令人意外的是,第一轮试水就成功了。

沙盒对于运行Agent生成的代码来说,效果非常理想。

OpenAI进军基础设施,LangChain们无处可躲

谈到这个层面,本次发布对行业格局的真正冲击才完全显现。

LangChain、LangGraph、CrewAI、AutoGen这些第三方Agent框架,过去一年靠什么生存?答案是用各自的方案填补OpenAI原生SDK在“生产可用性”上的空白——编排、记忆管理、护栏、追踪、多Agent协作,这些都是第三方框架的核心战场。

现在,OpenAI一次性将这些主战场全部接管。他们要做的是Agent世界的基础设施层。第三方框架从此要么向更高层(编排、垂直场景)发展,要么向更低层(专用沙盒、专用工具)下沉,夹在中间的那块地板已经被OpenAI自己牢牢踩实。

而且,OpenAI口中所谓的“兼容所有沙盒服务商”,本质上就是把沙盒供应商纳入OpenAI的生态版图。今天或许是合作伙伴,但明天很可能就只是OpenAI生态下的“组件供应商”了。

Python先行,TypeScript仍在排队

当然,一切目前并不完美。harness和sandbox的新能力首发只支持Python,TypeScript版本排在后续更新计划中;SDK至今仍然停留在0.Y.Z版本号。

但方向已经极为清晰:GPT-5.4带着原生computer use登场,而Agents SDK则为它配齐了真正的运行环境。

下一步欠缺的,只是更多开发者将业务逻辑搭建在这个基础设施之上。

从此,做Agent框架的创业公司需要重新审视自身定位;做沙盒的供应商要开始评估OpenAI的流量能否承接;做业务层Agent应用的团队则需要权衡是否迁移。

GPT-5.4发布那天,曾被一些人评价为“没有惊喜的例行升级”。40天后回头再看,真正的惊喜,今天才到。

参考资料:

https://techcrunch.com/2026/04/15/openai-updates-its-agents-sdk-to-help-enterprises-build-safer-more-capable-agents/

https://modal.com/blog/building-with-modal-and-the-openai-agent-sdk

https://openai.com/index/the-next-evolution-of-the-agents-sdk/

https://x.com/OpenAIDevs/status/2044466699785920937

https://x.com/snsf/status/2044514160034324793

来源:https://36kr.com/p/3769362731467272
上一篇Siri被吐槽成内部落后生,200名工程师集体学AI编程备战WWDC26 下一篇据最新传闻iPhone 18 Pro可变光圈关键组件已开始量产
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
长安汽车明年一季度发布首款车载人形机器人小安
业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略,采用“1+N+X”布局,联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm,体重69kg,移动速度0 8m s,具备40个自由度,续航超2小时。预计明年一季度发布首款车载组件机器人,已在广州车展展示。

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影
业界动态 · 2026-06-29

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影

3月25日,光通信领域迎来又一个里程碑:中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司,成功实现了2 5Pb s 24芯光纤超大容量实时光传输,再次刷新了世界纪录。 这一研究成果不仅入选国际顶级光通信会议OFC(2026)并荣获“高分论文”称号,还受国际权威SCI

美国调查18万辆特斯拉Model3车门应急释放装置易找性
业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查,焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿,不意味着立即召回,但可能引发后续监管措施。

doc个人图书馆停服 创始人称无偿转让失败
业界动态 · 2026-06-29

doc个人图书馆停服 创始人称无偿转让失败

运营长达20年,累计服务8000万用户的360doc个人图书馆,最终还是迎来了谢幕时刻。2026年5月1日,这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失,而是始终未能寻得一位能够安全接管的合适人选。 创始人蔡智在告别信中坦言,近两个月来,他一直在尝试将360doc无偿转

年Q1随身WiFi实测安全靠谱高性价比机型推荐
业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月,艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证,紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后,折射出一个清晰的市场趋势:移动办公、户外出行、宿舍上网等场景的需求正在快速增长,随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿