游乐游手机版
首页/科技数码/文章详情

GPT-5.4重磅发布:三大核心问题解析与能力升级前瞻

时间:2026-03-06 11:04
GPT-5 4发布,还能使用电脑了。当地时间3月5日,OpenAI正式推出GPT-5 4,在ChatGPT中提供GPT‑5 4 Thinking,并上线API和Codex。同时,也推出了GPT-5

备受期待的GPT-5.4正式登场,现在你可以在电脑上直接使用它了。

当地时间3月5日,OpenAI正式发布了GPT-5.4。这一新模型已在ChatGPT中上线,提供名为“GPT-5.4+Thinking”的版本,同时其API和Codex编程界面也同步开放。此外,针对需要处理复杂任务的用户,OpenAI还推出了功能更强的GPT-5.4+Pro版本。

据介绍,在ChatGPT中,GPT-5.4+Thinking现在能够提供其思考过程的初步规划。这意味着用户可以在它工作途中调整方向,从而最终获得更符合需求的结果,而无需进行额外的对话轮次。该版本还改进了深度网络研究能力,尤其在处理高度具体的查询时表现更佳,同时也能更好地保持那些需要长时间思考的问题的上下文连续性。

与此同时,GPT-5.4支持高达100万token的上下文窗口,允许进行代理规划、执行和验证长周期任务。它还通过工具搜索功能改进了模型在大型工具和连接器生态系统中的工作方式,帮助代理更高效地找到并使用正确的工具,且不牺牲其智能表现。与GPT-5.2相比,GPT-5.4在解决问题时所需的token数量显著减少。

在GDPval测试中(该测试旨在评估智能体在44种职业中产生明确规范的知识工作的能力),GPT-5.4取得了新的最高得分。在83%的比较情境中,其表现与行业专业人士持平甚至超越,而GPT-5.2的这一比例为70.9%。


随着OpenClaw创始人彼得·斯坦伯格(Peter Steinberger)的加入,GPT-5.4具备了原生计算机使用能力。目前开发者已经可以构建能够跨操作系统和软件系统完成实际任务的多智能体应用。

OpenAI表示,GPT-5.4擅长编写通过Playwright等库操作计算机的代码,甚至能根据屏幕截图发出鼠标和键盘命令。模型还可以通过开发者的消息进行引导,开发者可以调整其行为以适应特定用例,并能配置模型的安全行为,通过指定自定义确认策略来适应不同级别的风险承受能力。

在OSWorld-Verified评估中(该基准衡量模型通过屏幕截图和键盘/鼠标操作导航桌面环境的能力),GPT-5.4+达到了75.0%的成功率,远高于GPT-5.2的47.3%,甚至超过了人类72.4%的表现。而在WebArena-Verified、Online-Mind2Web和MMMU-Pro等测试中,GPT-5.4均取得了新的最高分。在OmniDocBench上,GPT-5.4(无推理努力)的平均误差也优于GPT-5.2。


GPT-5.4现已能够操作电脑处理电子邮件和日程安排。

据介绍,GPT-5.4结合了GPT-5.3-Codex的编码优势与领先的知识工作和计算机使用能力,使得模型可以使用工具、迭代并以更少的人工干预推进长期工作任务。在SWE-Bench Pro基准测试上,GPT-5.4与GPT-5.3-Codex持平或表现更佳,同时在各种推理努力水平下具有更低的延迟。

OpenAI还发布了一项名为“Playwright (Interactive)”的实验性Codex技能,允许Codex可视化调试Web和Electron应用程序;它甚至能在构建应用程序的同时对其进行测试。

当在Codex中开启/fast模式时,GPT-5.4的token生成速度可提高多达1.5倍。开发者也可以通过API使用优先处理(priority processing)以同样快的速度访问GPT-5.4。

与此同时,在API中,GPT-5.4引入了工具搜索功能。在提供许多工具时(所有工具定义都预先包含在提示中),模型所需的token数量更少,并保留了缓存,使请求更快、成本也更低。

在ChatGPT中,GPT-5.4+Thinking今日起向Plus、团队和Pro用户开放,替代GPT-5.2+Thinking。GPT-5.2+Thinking将在付费用户的模型选择器的“遗留模型”中保留三个月,并于6月5日正式退役。企业和教育计划用户可以通过管理员设置启用早期访问。而GPT-5.4+Pro则供Pro和企业计划用户使用。

费用方面,API中GPT-5.4每token价格高于GPT-5.2,批量和灵活定价为标准API费率的一半,而优先处理则为标准API费率的两倍。输入价格为2.5美元/百万Token、输出价格15美元/百万Token,Pro版输入价格则高达30美元/百万Token,输出价格180美元/百万Token。

在Codex中,超过标准272K上下文窗口的请求也将按正常费率的2倍计入使用限制。


GPT-5.4发布后,AI写作助手公司HyperWrite的CEO马特·舒默第一时间分享了试用感受。他表示模型在3个方面仍有改进空间:其前端交互界面仍远逊于Opus 4.6和Gemini 3.1 Pro;模型有时仍会忽略一些显而易见的现实世界背景,例如让它规划一次旅行,乍看行程安排完美无缺,但它却忽略了选择一些春假期间人流拥堵的地点,因此不得不重新运行提示并添加更多背景信息;此外,在OpenClaw中进行测试时,它经常会在完成任务前突然停止。

OpenAI的CEO山姆·奥特曼随即回应称,将尽快解决这三个问题。

此前,OpenAI刚刚完成了1100亿美元的新一轮融资,投前估值高达7300亿美元。据介绍,自今年年初以来,Codex的周活跃用户增长了两倍多,达到160万,而ChatGPT周活跃用户超过9亿,个人订阅用户数超5000万,付费企业用户超900万。

奥特曼曾透露,OpenAI或将在2027年上市。据此前外媒报道,OpenAI此次IPO的估值可能高达约1万亿美元,并最早可能在2026年下半年向监管机构提交上市申请。

来源:https://www.163.com/dy/article/KNB2N7LK0514R9P4.html
上一篇荣耀600系列新机H600曝光,神秘设计抢先看 下一篇比亚迪发布第二代刀片电池,王传福以技术改变世界再发声
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
领克10与10+上市16.99万起 900V架构高性能运动轿车
科技数码 · 2026-05-30

领克10与10+上市16.99万起 900V架构高性能运动轿车

领克10与10+正式上市,限时起售价16 99万元至21 99万元。全系基于SEA浩瀚架构,标配900V高压平台,续航最高816公里,快充达“1秒极充2公里”。高性能版双电机四驱,3 2秒破百,曾登顶天门山弯道之王。操控由纽北团队调校,麋鹿测试85 4km h。标配激光雷达、8295芯片,高配可选Thor-U芯片实现高阶智驾。整车扭转刚度45500Nm de

海韵秀肌肉:5200W旗舰电源上线,单电源可带9张RTX5090显卡
科技数码 · 2026-05-30

海韵秀肌肉:5200W旗舰电源上线,单电源可带9张RTX5090显卡

海韵推出首款80PLUSRuby认证的5200WCRPS服务器电源,峰值效率96 5%,单电源可带动9张RTX5090。同步发布PRIMEENTERPRISE系列及VERTEX、FOCUS等多款消费级电源,覆盖服务器与桌面场景。

vivo S60系列发布 2899元起 支持4K原生感Live
科技数码 · 2026-05-30

vivo S60系列发布 2899元起 支持4K原生感Live

vivoS60系列手机正式发布,起售价仅为2899元。采用了星芒美学设计及独创立体星芒光刻工艺。影像升级4K原生感Live,配备了5000万像素云台防抖主摄与潜望长焦,支持CIPA5 0防抖标准。内置了7200mAh大电池,支持90W快充,具备IP69与IP68级防护。

特斯拉获L4认证 莲花放弃纯电 vivo电池升级 欣旺达10000mAh 今日要闻
科技数码 · 2026-05-30

特斯拉获L4认证 莲花放弃纯电 vivo电池升级 欣旺达10000mAh 今日要闻

特斯拉Robotaxi根据新规自我认证为L4级自动驾驶,扫清运营障碍。莲花CEO承认高估纯电转型速度,将推出燃油及混动车型。vivo调研换电池服务,老机型容量或增加。欣旺达已量产10000mAh手机电池,并布局半固态电池。

航天员武飞滑出舱 张陆从太空带回苹果
科技数码 · 2026-05-30

航天员武飞滑出舱 张陆从太空带回苹果

神舟二十一号乘组完成在轨使命后,搭乘神舟二十二号飞船于2026年5月29日20时11分精准降落东风着陆场,航天员张陆、武飞、张洪章身体状态良好,任务取得圆满成功。