GPT-5.4正式发布：原生支持计算机操控与专业级编码能力_AI热点日报

今天，OpenAI正式揭开了GPT-5 4系列模型的面纱。这次发布包含两个版本：面向ChatGPT和API的GPT-5 4 Thinking，以及专为复杂任务设计的GPT-5 4 Pro。可以说，这是OpenAI首次将尖端的推理、编码和智能体能力，整合进一个统一的模型架构里，目标直指提升专业工作的效

今天，OpenAI正式揭开了GPT-5.4系列模型的面纱。这次发布包含两个版本：面向ChatGPT和API的GPT-5.4 Thinking，以及专为复杂任务设计的GPT-5.4 Pro。可以说，这是OpenAI首次将尖端的推理、编码和智能体能力，整合进一个统一的模型架构里，目标直指提升专业工作的效率与精准度。

OpenAI 最强模型 GPT-5.4 正式登场：原生支持计算机操控，编码能力超前代，专业知识工作表现接近人类专家

核心功能升级

在ChatGPT里，GPT-5.4 Thinking带来了一个颇具巧思的新功能——“思考过程预览”。当处理复杂问题时，模型会预先展示它的推理路径。这意味着用户可以在它生成最终答案的中途，实时介入并调整方向，从而减少来回沟通的拉锯战，更快地锁定理想结果。据了解，这个功能已经在网页版和安卓应用上线，iOS版本也即将推出。

OpenAI 最强模型 GPT-5.4 正式登场：原生支持计算机操控，编码能力超前代，专业知识工作表现接近人类专家

新模型在深度网络研究能力上也下了功夫，尤其是在处理那些高度具体、需要长上下文连贯性的查询时，表现更为稳健。对于需要“长时间思考”的问题，GPT-5.4 Thinking能更好地记住对话的前因后果，确保给出的答案自始至终都紧扣主题，不会跑偏。

而在Codex和API层面，GPT-5.4实现了一个关键突破：它成为了OpenAI首个具备原生计算机使用能力的通用模型。简单说，它现在能看懂屏幕截图，并理解键盘、鼠标指令，从而操作计算机，完成跨多个应用的复杂工作流。配合高达100万tokens的上下文窗口，智能体现在有能力去规划、执行并验证那些周期更长的任务了。

知识工作表现显著提升

在专业工作领域，GPT-5.4的进步是实实在在的。根据OpenAI在44个职业领域的GDPval基准测试，GPT-5.4在83.0%的项目上已经达到或超过了行业专业水平。作为对比，前代GPT-5.2的这个数字是70.9%。

OpenAI 最强模型 GPT-5.4 正式登场：原生支持计算机操控，编码能力超前代，专业知识工作表现接近人类专家

具体到任务上，在内部进行的投行级电子表格建模测试中，GPT-5.4的平均得分达到了87.3%，远高于GPT-5.2的68.4%。在演示文稿制作上，评审者明显更青睐GPT-5.4的产出（偏好度68.0% vs. 32.0%），优势主要体现在更强的美学设计、更丰富的视觉变化以及对生成图像的更有效运用上。

OpenAI 最强模型 GPT-5.4 正式登场：原生支持计算机操控，编码能力超前代，专业知识工作表现接近人类专家

更值得一提的是准确性。GPT-5.4堪称OpenAI迄今为止“事实性”最强的模型。相比GPT-5.2，其单个陈述的错误率降低了33%，而一个完整回答中间出现任何错误的可能性则降低了18%。

计算机使用与视觉能力

GPT-5.4在“动手操作”计算机方面表现惊人。在OSWorld-Verified基准测试（通过截图和键鼠指令操作PC桌面环境）中，它实现了75.0%的成功率，不仅大幅超越GPT-5.2的47.3%，甚至略微超过了人类72.4%的平均表现。

OpenAI 最强模型 GPT-5.4 正式登场：原生支持计算机操控，编码能力超前代，专业知识工作表现接近人类专家

在浏览器操作测试中，GPT-5.4结合DOM和截图进行交互时，在WebArena-Verified上成功率达到67.3%（GPT-5.2为65.4%）。而在仅观察截图的Online-Mind2Web测试中，其成功率高达92.8%，显著优于ChatGPT Atlas智能体模式的70.9%。

OpenAI 最强模型 GPT-5.4 正式登场：原生支持计算机操控，编码能力超前代，专业知识工作表现接近人类专家

视觉理解能力同样有提升。在MMMU-Pro视觉理解与推理测试中，GPT-5.4取得了81.2%的成功率，优于前代的79.5%。在OmniDocBench文档解析测试中，其平均错误率降至0.109（GPT-5.2为0.140）。

OpenAI 最强模型 GPT-5.4 正式登场：原生支持计算机操控，编码能力超前代，专业知识工作表现接近人类专家

编码能力与工具生态

编码方面，GPT-5.4融合了GPT-5.3-Codex的优势，在SWE-Bench Pro基准上与之持平甚至表现更优，同时延迟更低。Codex中的“/fast”模式还能将token处理速度提升1.5倍，且智能水平不打折扣。

OpenAI 最强模型 GPT-5.4 正式登场：原生支持计算机操控，编码能力超前代，专业知识工作表现接近人类专家

新增的“工具搜索”功能让模型能更高效地调用各种工具。在Scale的MCP Atlas基准测试中，启用该功能后，在保持相同准确率的前提下，总token消耗量减少了47%。同时，在Toolathlon基准（测试智能体使用真实世界工具和API完成多步骤任务）上，GPT-5.4能用更少的交互轮次实现更高的准确率。

网络搜索能力也同步增强。在BrowseComp基准（测试持续浏览网络寻找难以定位信息的能力）上，GPT-5.4的性能较GPT-5.2提升了17个百分点，而GPT-5.4 Pro更是创下了89.3%的新纪录。

OpenAI 最强模型 GPT-5.4 正式登场：原生支持计算机操控，编码能力超前代，专业知识工作表现接近人类专家

安全性与可用性

安全性方面，GPT-5.4延续了GPT-5.3-Codex的防护措施，并引入了一项新的开源评估“CoT可控性”。测试发现，GPT-5.4 Thinking对其思维链的控制能力较低，这反而有利于进行安全监控。

OpenAI 最强模型 GPT-5.4 正式登场：原生支持计算机操控，编码能力超前代，专业知识工作表现接近人类专家

定价策略上，GPT-5.4 API的每token单价确实高于GPT-5.2，但由于其更高的token效率，许多任务的总token消耗会降低，从而可能节省总体成本。批量处理和Flex定价为标准费率的一半，而优先处理则为标准费率的两倍。

发布计划

从即日起，GPT-5.4 Thinking将面向ChatGPT Plus、Team和Pro用户开放，并取代原有的GPT-5.2 Thinking。GPT-5.2 Thinking将在模型选择器的“遗留模型”部分保留三个月，直至2026年6月5日退役。Enterprise和Edu计划用户可通过管理员设置启用早期访问。GPT-5.4 Pro则面向Pro和Enterprise计划用户开放。

在API中，GPT-5.4将以gpt-5.4名称提供，而GPT-5.4 Pro则以gpt-5.4-pro名称提供给需要极致性能的开发者。Codex中的GPT-5.4还支持100万上下文窗口的实验性功能。

总体来看，GPT-5.4是OpenAI首个融合了前沿编码能力，并在ChatGPT、API和Codex三大平台同步推出的主流推理模型。这也预示着，未来的Instant模型和Thinking模型可能会以不同的节奏和路径继续演进。