GPT-5.4正式发布:原生支持计算机操控与专业级编码能力
今天,OpenAI正式揭开了GPT-5.4系列模型的面纱。这次发布包含两个版本:面向ChatGPT和API的GPT-5.4 Thinking,以及专为复杂任务设计的GPT-5.4 Pro。可以说,这是OpenAI首次将尖端的推理、编码和智能体能力,整合进一个统一的模型架构里,目标直指提升专业工作的效率与精准度。

核心功能升级
在ChatGPT里,GPT-5.4 Thinking带来了一个颇具巧思的新功能——“思考过程预览”。当处理复杂问题时,模型会预先展示它的推理路径。这意味着用户可以在它生成最终答案的中途,实时介入并调整方向,从而减少来回沟通的拉锯战,更快地锁定理想结果。据了解,这个功能已经在网页版和安卓应用上线,iOS版本也即将推出。

新模型在深度网络研究能力上也下了功夫,尤其是在处理那些高度具体、需要长上下文连贯性的查询时,表现更为稳健。对于需要“长时间思考”的问题,GPT-5.4 Thinking能更好地记住对话的前因后果,确保给出的答案自始至终都紧扣主题,不会跑偏。
而在Codex和API层面,GPT-5.4实现了一个关键突破:它成为了OpenAI首个具备原生计算机使用能力的通用模型。简单说,它现在能看懂屏幕截图,并理解键盘、鼠标指令,从而操作计算机,完成跨多个应用的复杂工作流。配合高达100万tokens的上下文窗口,智能体现在有能力去规划、执行并验证那些周期更长的任务了。
知识工作表现显著提升
在专业工作领域,GPT-5.4的进步是实实在在的。根据OpenAI在44个职业领域的GDPval基准测试,GPT-5.4在83.0%的项目上已经达到或超过了行业专业水平。作为对比,前代GPT-5.2的这个数字是70.9%。

具体到任务上,在内部进行的投行级电子表格建模测试中,GPT-5.4的平均得分达到了87.3%,远高于GPT-5.2的68.4%。在演示文稿制作上,评审者明显更青睐GPT-5.4的产出(偏好度68.0% vs. 32.0%),优势主要体现在更强的美学设计、更丰富的视觉变化以及对生成图像的更有效运用上。

更值得一提的是准确性。GPT-5.4堪称OpenAI迄今为止“事实性”最强的模型。相比GPT-5.2,其单个陈述的错误率降低了33%,而一个完整回答中间出现任何错误的可能性则降低了18%。
计算机使用与视觉能力
GPT-5.4在“动手操作”计算机方面表现惊人。在OSWorld-Verified基准测试(通过截图和键鼠指令操作PC桌面环境)中,它实现了75.0%的成功率,不仅大幅超越GPT-5.2的47.3%,甚至略微超过了人类72.4%的平均表现。

在浏览器操作测试中,GPT-5.4结合DOM和截图进行交互时,在WebArena-Verified上成功率达到67.3%(GPT-5.2为65.4%)。而在仅观察截图的Online-Mind2Web测试中,其成功率高达92.8%,显著优于ChatGPT Atlas智能体模式的70.9%。

视觉理解能力同样有提升。在MMMU-Pro视觉理解与推理测试中,GPT-5.4取得了81.2%的成功率,优于前代的79.5%。在OmniDocBench文档解析测试中,其平均错误率降至0.109(GPT-5.2为0.140)。

编码能力与工具生态
编码方面,GPT-5.4融合了GPT-5.3-Codex的优势,在SWE-Bench Pro基准上与之持平甚至表现更优,同时延迟更低。Codex中的“/fast”模式还能将token处理速度提升1.5倍,且智能水平不打折扣。

新增的“工具搜索”功能让模型能更高效地调用各种工具。在Scale的MCP Atlas基准测试中,启用该功能后,在保持相同准确率的前提下,总token消耗量减少了47%。同时,在Toolathlon基准(测试智能体使用真实世界工具和API完成多步骤任务)上,GPT-5.4能用更少的交互轮次实现更高的准确率。
网络搜索能力也同步增强。在BrowseComp基准(测试持续浏览网络寻找难以定位信息的能力)上,GPT-5.4的性能较GPT-5.2提升了17个百分点,而GPT-5.4 Pro更是创下了89.3%的新纪录。

安全性与可用性
安全性方面,GPT-5.4延续了GPT-5.3-Codex的防护措施,并引入了一项新的开源评估“CoT可控性”。测试发现,GPT-5.4 Thinking对其思维链的控制能力较低,这反而有利于进行安全监控。

定价策略上,GPT-5.4 API的每token单价确实高于GPT-5.2,但由于其更高的token效率,许多任务的总token消耗会降低,从而可能节省总体成本。批量处理和Flex定价为标准费率的一半,而优先处理则为标准费率的两倍。
发布计划
从即日起,GPT-5.4 Thinking将面向ChatGPT Plus、Team和Pro用户开放,并取代原有的GPT-5.2 Thinking。GPT-5.2 Thinking将在模型选择器的“遗留模型”部分保留三个月,直至2026年6月5日退役。Enterprise和Edu计划用户可通过管理员设置启用早期访问。GPT-5.4 Pro则面向Pro和Enterprise计划用户开放。
在API中,GPT-5.4将以gpt-5.4名称提供,而GPT-5.4 Pro则以gpt-5.4-pro名称提供给需要极致性能的开发者。Codex中的GPT-5.4还支持100万上下文窗口的实验性功能。
总体来看,GPT-5.4是OpenAI首个融合了前沿编码能力,并在ChatGPT、API和Codex三大平台同步推出的主流推理模型。这也预示着,未来的Instant模型和Thinking模型可能会以不同的节奏和路径继续演进。
相关攻略
今天,OpenAI正式揭开了GPT-5 4系列模型的面纱。这次发布包含两个版本:面向ChatGPT和API的GPT-5 4 Thinking,以及专为复杂任务设计的GPT-5 4 Pro。可以说,这是OpenAI首次将尖端的推理、编码和智能体能力,整合进一个统一的模型架构里,目标直指提升专业工作的效
3月7日,OpenAI在代码安全领域投下了一枚“重磅冲击波”——正式推出了名为Codex Security的AI工具。这款产品的目标非常明确:直指代码安全审计这个让无数开发团队头疼的核心场景。 那么,它到底有什么特别之处?简单来说,Codex Security的核心理念是将前沿AI模型的推理能力,与
3月7日,彭博社的一则深度报道揭示了AI算力基础设施领域的关键动态:备受业界瞩目的“星际之门”(Stargate)项目,其位于美国得克萨斯州阿比林(Abilene)的首个数据中心站点,其最终规模很可能将定格在1 2吉瓦(GW)。此前备受期待的扩容至2GW的谈判,在OpenAI、甲骨文(Oracle)
3月7日,OpenAI发布了一则值得关注的公告:他们正在邀请用户测试全新的“ChatGPT for Excel”功能。简单来说,就是将大家熟悉的AI助手,以插件形式直接嵌入到Excel软件中。与此同时,一系列专门面向金融分析师和企业财务团队的集成功能也同步亮相。 目前,这项测试已面向美国、加拿大和澳
OpenAI即将推出全新图像生成模型,其核心突破在于对复杂图表和精密构图的理解与生成能力。该模型旨在解决现有工具在专业图表、逻辑示意图等领域的生成短板,预计将显著提升AI在艺术创作、商业报告及科研绘图等领域的实用价值。具体细节虽未公布,但其发布已引发行业高度关注。
热门专题
热门推荐
AI技术在音乐创作领域的应用正不断深化,从基础的智能编曲发展到如今备受关注的AI歌曲翻唱。FineShare Singify作为一款专业的AI翻唱生成工具,让用户能够轻松将任意歌曲转换为由虚拟歌手演绎的全新版本,为音乐二次创作带来了更多可能性。 本质上,Singify是一个高度智能的“AI歌声转换器
在AI绘画与文本生成图像领域,开源社区迎来了一位实力强劲的新选手:DeepFloyd IF。该模型由StabilityAI旗下的DeepFloyd实验室研发,其核心采用了一种创新的模块化、级联式神经网络架构,专门用于生成超高分辨率的高质量图片。 通俗地讲,你可以将它看作一个分工明确的“专家团队”。生
柴犬币(SHIB)图表形态逆转:更高低点预示趋势转变 在经历了数月的低迷与方向不明的盘整后,柴犬币(SHIB)的日线图表终于呈现出一个关键且清晰的技术信号:一系列更高的低点正在形成。这标志着此前主导市场的“更低的高点和更低的低点”的下降趋势结构已被打破,一种新的、更具建设性的价格形态正在确立。对于资
福特搁置欧洲2030年全面停售燃油车计划,因市场电动化进程不及预期。公司认为强制淘汰政策或适得其反,可能导致老旧高排放车辆持续使用,反而延缓减排。福特呼吁调整法规,为混合动力等过渡技术提供空间,并计划推出燃油与电动新车型以重振市场。
特斯拉Cybertruck车主为测试车辆“涉水模式”,故意将其驶入湖泊,导致车辆进水失去动力,人员被迫弃车逃生。警方以违反水域安全法规等多项指控逮捕司机。官方手册明确该模式仅适用于浅水区域,且涉水损坏不在保修范围内。此次事件警示公众需遵守法规并重视安全警告。





