游乐游手机版
首页/科技数码/文章详情

GPT-5.4重磅发布:三大核心问题解析与能力升级前瞻

时间:2026-03-06 11:04
GPT-5 4发布,还能使用电脑了。当地时间3月5日,OpenAI正式推出GPT-5 4,在ChatGPT中提供GPT‑5 4 Thinking,并上线API和Codex。同时,也推出了GPT-5

备受期待的GPT-5.4正式登场,现在你可以在电脑上直接使用它了。

当地时间3月5日,OpenAI正式发布了GPT-5.4。这一新模型已在ChatGPT中上线,提供名为“GPT-5.4+Thinking”的版本,同时其API和Codex编程界面也同步开放。此外,针对需要处理复杂任务的用户,OpenAI还推出了功能更强的GPT-5.4+Pro版本。

据介绍,在ChatGPT中,GPT-5.4+Thinking现在能够提供其思考过程的初步规划。这意味着用户可以在它工作途中调整方向,从而最终获得更符合需求的结果,而无需进行额外的对话轮次。该版本还改进了深度网络研究能力,尤其在处理高度具体的查询时表现更佳,同时也能更好地保持那些需要长时间思考的问题的上下文连续性。

与此同时,GPT-5.4支持高达100万token的上下文窗口,允许进行代理规划、执行和验证长周期任务。它还通过工具搜索功能改进了模型在大型工具和连接器生态系统中的工作方式,帮助代理更高效地找到并使用正确的工具,且不牺牲其智能表现。与GPT-5.2相比,GPT-5.4在解决问题时所需的token数量显著减少。

在GDPval测试中(该测试旨在评估智能体在44种职业中产生明确规范的知识工作的能力),GPT-5.4取得了新的最高得分。在83%的比较情境中,其表现与行业专业人士持平甚至超越,而GPT-5.2的这一比例为70.9%。


随着OpenClaw创始人彼得·斯坦伯格(Peter Steinberger)的加入,GPT-5.4具备了原生计算机使用能力。目前开发者已经可以构建能够跨操作系统和软件系统完成实际任务的多智能体应用。

OpenAI表示,GPT-5.4擅长编写通过Playwright等库操作计算机的代码,甚至能根据屏幕截图发出鼠标和键盘命令。模型还可以通过开发者的消息进行引导,开发者可以调整其行为以适应特定用例,并能配置模型的安全行为,通过指定自定义确认策略来适应不同级别的风险承受能力。

在OSWorld-Verified评估中(该基准衡量模型通过屏幕截图和键盘/鼠标操作导航桌面环境的能力),GPT-5.4+达到了75.0%的成功率,远高于GPT-5.2的47.3%,甚至超过了人类72.4%的表现。而在WebArena-Verified、Online-Mind2Web和MMMU-Pro等测试中,GPT-5.4均取得了新的最高分。在OmniDocBench上,GPT-5.4(无推理努力)的平均误差也优于GPT-5.2。


GPT-5.4现已能够操作电脑处理电子邮件和日程安排。

据介绍,GPT-5.4结合了GPT-5.3-Codex的编码优势与领先的知识工作和计算机使用能力,使得模型可以使用工具、迭代并以更少的人工干预推进长期工作任务。在SWE-Bench Pro基准测试上,GPT-5.4与GPT-5.3-Codex持平或表现更佳,同时在各种推理努力水平下具有更低的延迟。

OpenAI还发布了一项名为“Playwright (Interactive)”的实验性Codex技能,允许Codex可视化调试Web和Electron应用程序;它甚至能在构建应用程序的同时对其进行测试。

当在Codex中开启/fast模式时,GPT-5.4的token生成速度可提高多达1.5倍。开发者也可以通过API使用优先处理(priority processing)以同样快的速度访问GPT-5.4。

与此同时,在API中,GPT-5.4引入了工具搜索功能。在提供许多工具时(所有工具定义都预先包含在提示中),模型所需的token数量更少,并保留了缓存,使请求更快、成本也更低。

在ChatGPT中,GPT-5.4+Thinking今日起向Plus、团队和Pro用户开放,替代GPT-5.2+Thinking。GPT-5.2+Thinking将在付费用户的模型选择器的“遗留模型”中保留三个月,并于6月5日正式退役。企业和教育计划用户可以通过管理员设置启用早期访问。而GPT-5.4+Pro则供Pro和企业计划用户使用。

费用方面,API中GPT-5.4每token价格高于GPT-5.2,批量和灵活定价为标准API费率的一半,而优先处理则为标准API费率的两倍。输入价格为2.5美元/百万Token、输出价格15美元/百万Token,Pro版输入价格则高达30美元/百万Token,输出价格180美元/百万Token。

在Codex中,超过标准272K上下文窗口的请求也将按正常费率的2倍计入使用限制。


GPT-5.4发布后,AI写作助手公司HyperWrite的CEO马特·舒默第一时间分享了试用感受。他表示模型在3个方面仍有改进空间:其前端交互界面仍远逊于Opus 4.6和Gemini 3.1 Pro;模型有时仍会忽略一些显而易见的现实世界背景,例如让它规划一次旅行,乍看行程安排完美无缺,但它却忽略了选择一些春假期间人流拥堵的地点,因此不得不重新运行提示并添加更多背景信息;此外,在OpenClaw中进行测试时,它经常会在完成任务前突然停止。

OpenAI的CEO山姆·奥特曼随即回应称,将尽快解决这三个问题。

此前,OpenAI刚刚完成了1100亿美元的新一轮融资,投前估值高达7300亿美元。据介绍,自今年年初以来,Codex的周活跃用户增长了两倍多,达到160万,而ChatGPT周活跃用户超过9亿,个人订阅用户数超5000万,付费企业用户超900万。

奥特曼曾透露,OpenAI或将在2027年上市。据此前外媒报道,OpenAI此次IPO的估值可能高达约1万亿美元,并最早可能在2026年下半年向监管机构提交上市申请。

来源:https://www.163.com/dy/article/KNB2N7LK0514R9P4.html
上一篇荣耀600系列新机H600曝光,神秘设计抢先看 下一篇比亚迪发布第二代刀片电池,王传福以技术改变世界再发声
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。