备受期待的GPT-5.4正式登场,现在你可以在电脑上直接使用它了。
当地时间3月5日,OpenAI正式发布了GPT-5.4。这一新模型已在ChatGPT中上线,提供名为“GPT-5.4+Thinking”的版本,同时其API和Codex编程界面也同步开放。此外,针对需要处理复杂任务的用户,OpenAI还推出了功能更强的GPT-5.4+Pro版本。
据介绍,在ChatGPT中,GPT-5.4+Thinking现在能够提供其思考过程的初步规划。这意味着用户可以在它工作途中调整方向,从而最终获得更符合需求的结果,而无需进行额外的对话轮次。该版本还改进了深度网络研究能力,尤其在处理高度具体的查询时表现更佳,同时也能更好地保持那些需要长时间思考的问题的上下文连续性。
与此同时,GPT-5.4支持高达100万token的上下文窗口,允许进行代理规划、执行和验证长周期任务。它还通过工具搜索功能改进了模型在大型工具和连接器生态系统中的工作方式,帮助代理更高效地找到并使用正确的工具,且不牺牲其智能表现。与GPT-5.2相比,GPT-5.4在解决问题时所需的token数量显著减少。
在GDPval测试中(该测试旨在评估智能体在44种职业中产生明确规范的知识工作的能力),GPT-5.4取得了新的最高得分。在83%的比较情境中,其表现与行业专业人士持平甚至超越,而GPT-5.2的这一比例为70.9%。

随着OpenClaw创始人彼得·斯坦伯格(Peter Steinberger)的加入,GPT-5.4具备了原生计算机使用能力。目前开发者已经可以构建能够跨操作系统和软件系统完成实际任务的多智能体应用。
OpenAI表示,GPT-5.4擅长编写通过Playwright等库操作计算机的代码,甚至能根据屏幕截图发出鼠标和键盘命令。模型还可以通过开发者的消息进行引导,开发者可以调整其行为以适应特定用例,并能配置模型的安全行为,通过指定自定义确认策略来适应不同级别的风险承受能力。
在OSWorld-Verified评估中(该基准衡量模型通过屏幕截图和键盘/鼠标操作导航桌面环境的能力),GPT-5.4+达到了75.0%的成功率,远高于GPT-5.2的47.3%,甚至超过了人类72.4%的表现。而在WebArena-Verified、Online-Mind2Web和MMMU-Pro等测试中,GPT-5.4均取得了新的最高分。在OmniDocBench上,GPT-5.4(无推理努力)的平均误差也优于GPT-5.2。

GPT-5.4现已能够操作电脑处理电子邮件和日程安排。
据介绍,GPT-5.4结合了GPT-5.3-Codex的编码优势与领先的知识工作和计算机使用能力,使得模型可以使用工具、迭代并以更少的人工干预推进长期工作任务。在SWE-Bench Pro基准测试上,GPT-5.4与GPT-5.3-Codex持平或表现更佳,同时在各种推理努力水平下具有更低的延迟。
OpenAI还发布了一项名为“Playwright (Interactive)”的实验性Codex技能,允许Codex可视化调试Web和Electron应用程序;它甚至能在构建应用程序的同时对其进行测试。
当在Codex中开启/fast模式时,GPT-5.4的token生成速度可提高多达1.5倍。开发者也可以通过API使用优先处理(priority processing)以同样快的速度访问GPT-5.4。
与此同时,在API中,GPT-5.4引入了工具搜索功能。在提供许多工具时(所有工具定义都预先包含在提示中),模型所需的token数量更少,并保留了缓存,使请求更快、成本也更低。
在ChatGPT中,GPT-5.4+Thinking今日起向Plus、团队和Pro用户开放,替代GPT-5.2+Thinking。GPT-5.2+Thinking将在付费用户的模型选择器的“遗留模型”中保留三个月,并于6月5日正式退役。企业和教育计划用户可以通过管理员设置启用早期访问。而GPT-5.4+Pro则供Pro和企业计划用户使用。
费用方面,API中GPT-5.4每token价格高于GPT-5.2,批量和灵活定价为标准API费率的一半,而优先处理则为标准API费率的两倍。输入价格为2.5美元/百万Token、输出价格15美元/百万Token,Pro版输入价格则高达30美元/百万Token,输出价格180美元/百万Token。
在Codex中,超过标准272K上下文窗口的请求也将按正常费率的2倍计入使用限制。

GPT-5.4发布后,AI写作助手公司HyperWrite的CEO马特·舒默第一时间分享了试用感受。他表示模型在3个方面仍有改进空间:其前端交互界面仍远逊于Opus 4.6和Gemini 3.1 Pro;模型有时仍会忽略一些显而易见的现实世界背景,例如让它规划一次旅行,乍看行程安排完美无缺,但它却忽略了选择一些春假期间人流拥堵的地点,因此不得不重新运行提示并添加更多背景信息;此外,在OpenClaw中进行测试时,它经常会在完成任务前突然停止。
OpenAI的CEO山姆·奥特曼随即回应称,将尽快解决这三个问题。
此前,OpenAI刚刚完成了1100亿美元的新一轮融资,投前估值高达7300亿美元。据介绍,自今年年初以来,Codex的周活跃用户增长了两倍多,达到160万,而ChatGPT周活跃用户超过9亿,个人订阅用户数超5000万,付费企业用户超900万。
奥特曼曾透露,OpenAI或将在2027年上市。据此前外媒报道,OpenAI此次IPO的估值可能高达约1万亿美元,并最早可能在2026年下半年向监管机构提交上市申请。
