OpenAI发布GPT‑5.4旗舰AI模型专为专业工作场景打造

首页

AI资讯

热心网友

转载

2026-05-24

GPT‑5.4是什么

如果说此前的AI模型还停留在“聪明地聊天”，那么GPT-5.4的登场，则标志着AI正式迈入了“可靠地干活”的新阶段。OpenAI将其定位为“专为专业工作设计的最强前沿模型”，这个定义绝非虚言。它首次将高阶推理、专业编程、原生计算机操作、深度网页搜索以及百万级别的上下文处理能力，无缝整合进一个单一模型，而且没有在任何单项性能上做出妥协。

这带来的结果是革命性的。在OSWorld电脑操作基准测试中，它以75%的成功率首次超越了人类平均水平；而在模拟真实知识工作的GDPval测试中，其83%的任务完成度达到甚至超过了专业人士的水准。更关键的是，它能够通过截图理解软件界面，并直接执行鼠标点击和键盘输入，独立完成跨应用的复杂工作流。这一切都指向一个清晰的结论：AI的能力焦点，正在从“回答问题”转向“完成任务”。

GPT‑5.4的主要功能

那么，这款“专业工作引擎”具体能做什么？其功能清单几乎覆盖了现代知识工作的全链条：

原生计算机操作：这是最具突破性的一点。模型能“看懂”屏幕截图，理解图形界面，并模拟人类的鼠标键盘操作。无论是整理数据、发送邮件还是操作网页应用，它都能像一位虚拟助手一样执行。在OSWorld测试中75%的成功率，意味着它在多数日常电脑任务上已经比普通人更可靠。

深度知识工作：它被设计用于处理44种不同职业的真实任务，从制作一份精美的PPT、进行财务建模与数据分析，到审阅复杂的法律文档。GDPval测试中83%的专家级达标率，足以证明其作为专业协作者的价值。

高阶编程与调试：继承了GPT-5.3-Codex的强大基因，并在其上进化。新增的Playwright Interactive功能允许开发者边写代码边进行可视化调试，甚至可以自动测试Web应用，极大提升了开发效率。

智能工具调用：模型引入了“工具搜索”机制，能按需查询外部工具的定义和用法，这使得它在执行多步骤任务时能灵活调用API，同时将相关Token消耗降低了47%，兼顾了能力与成本。

深度网页搜索：不再是一次性的简单查询。它能进行多轮、持续的搜索，主动筛选和整合信息，特别擅长处理那些“大海捞针”式的复杂信息检索任务，在BrowseComp测试中取得了82.7%的高分。

超长上下文处理：通过API，它能处理高达100万Token的上下文，足以一次性吞下整个项目的完整文档。同时，它支持输入高达1024万像素的高保真图像，为处理复杂图表和设计稿提供了可能。

实时任务调控：在执行复杂任务前，它会先展示一个清晰的“工作计划”；执行过程中，用户还能随时介入调整方向，而无需让整个任务推倒重来，交互更加人性化。

多模态视觉理解：其视觉推理、文档解析和界面识别能力得到了显著增强，为上述所有基于图像理解的操作打下了坚实基础。

GPT‑5.4的性能表现

功能强大与否，最终要靠硬核数据说话。GPT-5.4在多个维度的基准测试中都展现了碾压级的提升：

知识工作方面，在GDPval综合测试中，83.0%的任务达到专家水平，远超GPT-5.2的70.9%。在投行级别的表格建模任务上，成功率高达87.3%（GPT-5.2为68.4%）。由人类评审的PPT生成任务中，68%的评审者更偏好GPT-5.4的产出。

计算机操作领域，它的进步堪称飞跃。在OSWorld-Verified测试中以75.0%的成功率首次超越人类基线（72.4%），而GPT-5.2仅为47.3%。在纯靠截图操作网页的Online-Mind2Web测试中，更是达到了惊人的92.8%。

编程能力上，它在SWE-Bench Pro上以57.7%的通过率略超专门的代码模型GPT-5.3-Codex，同时延迟更低、Token效率更高。

工具与搜索是其另一大亮点。BrowseComp测试得分82.7%，较前代提升近17个百分点；多步骤工具调用的准确率（Toolathlon）也提升至54.6%。更重要的是，借助新的工具搜索机制，在保持同等准确率的前提下，相关Token消耗降低了47%。

在考验“智商”的学术与推理测试中，它的表现同样耀眼：GPQA Diamond科学问答接近满分（92.8%）；在高难度综合测试Humanity‘s Last Exam中达到52.1%；而在衡量抽象推理能力的ARC-AGI-2测试中，得分跃升至73.3%，远超GPT-5.2 Pro的54.2%。

最后是可靠性，这或许是专业应用中最关键的指标。GPT-5.4的单条事实错误概率降低了33%，完整回答的出错率降低了18%，成为OpenAI迄今为止事实准确性最高的模型。