OpenAI发布GPT‑5.4旗舰AI模型 专为专业工作场景打造
GPT‑5.4是什么
如果说此前的AI模型还停留在“聪明地聊天”,那么GPT-5.4的登场,则标志着AI正式迈入了“可靠地干活”的新阶段。OpenAI将其定位为“专为专业工作设计的最强前沿模型”,这个定义绝非虚言。它首次将高阶推理、专业编程、原生计算机操作、深度网页搜索以及百万级别的上下文处理能力,无缝整合进一个单一模型,而且没有在任何单项性能上做出妥协。
这带来的结果是革命性的。在OSWorld电脑操作基准测试中,它以75%的成功率首次超越了人类平均水平;而在模拟真实知识工作的GDPval测试中,其83%的任务完成度达到甚至超过了专业人士的水准。更关键的是,它能够通过截图理解软件界面,并直接执行鼠标点击和键盘输入,独立完成跨应用的复杂工作流。这一切都指向一个清晰的结论:AI的能力焦点,正在从“回答问题”转向“完成任务”。
GPT‑5.4的主要功能
那么,这款“专业工作引擎”具体能做什么?其功能清单几乎覆盖了现代知识工作的全链条:
原生计算机操作:这是最具突破性的一点。模型能“看懂”屏幕截图,理解图形界面,并模拟人类的鼠标键盘操作。无论是整理数据、发送邮件还是操作网页应用,它都能像一位虚拟助手一样执行。在OSWorld测试中75%的成功率,意味着它在多数日常电脑任务上已经比普通人更可靠。
深度知识工作:它被设计用于处理44种不同职业的真实任务,从制作一份精美的PPT、进行财务建模与数据分析,到审阅复杂的法律文档。GDPval测试中83%的专家级达标率,足以证明其作为专业协作者的价值。
高阶编程与调试:继承了GPT-5.3-Codex的强大基因,并在其上进化。新增的Playwright Interactive功能允许开发者边写代码边进行可视化调试,甚至可以自动测试Web应用,极大提升了开发效率。
智能工具调用:模型引入了“工具搜索”机制,能按需查询外部工具的定义和用法,这使得它在执行多步骤任务时能灵活调用API,同时将相关Token消耗降低了47%,兼顾了能力与成本。
深度网页搜索:不再是一次性的简单查询。它能进行多轮、持续的搜索,主动筛选和整合信息,特别擅长处理那些“大海捞针”式的复杂信息检索任务,在BrowseComp测试中取得了82.7%的高分。
超长上下文处理:通过API,它能处理高达100万Token的上下文,足以一次性吞下整个项目的完整文档。同时,它支持输入高达1024万像素的高保真图像,为处理复杂图表和设计稿提供了可能。
实时任务调控:在执行复杂任务前,它会先展示一个清晰的“工作计划”;执行过程中,用户还能随时介入调整方向,而无需让整个任务推倒重来,交互更加人性化。
多模态视觉理解:其视觉推理、文档解析和界面识别能力得到了显著增强,为上述所有基于图像理解的操作打下了坚实基础。
GPT‑5.4的性能表现
功能强大与否,最终要靠硬核数据说话。GPT-5.4在多个维度的基准测试中都展现了碾压级的提升:
知识工作方面,在GDPval综合测试中,83.0%的任务达到专家水平,远超GPT-5.2的70.9%。在投行级别的表格建模任务上,成功率高达87.3%(GPT-5.2为68.4%)。由人类评审的PPT生成任务中,68%的评审者更偏好GPT-5.4的产出。
计算机操作领域,它的进步堪称飞跃。在OSWorld-Verified测试中以75.0%的成功率首次超越人类基线(72.4%),而GPT-5.2仅为47.3%。在纯靠截图操作网页的Online-Mind2Web测试中,更是达到了惊人的92.8%。
编程能力上,它在SWE-Bench Pro上以57.7%的通过率略超专门的代码模型GPT-5.3-Codex,同时延迟更低、Token效率更高。
工具与搜索是其另一大亮点。BrowseComp测试得分82.7%,较前代提升近17个百分点;多步骤工具调用的准确率(Toolathlon)也提升至54.6%。更重要的是,借助新的工具搜索机制,在保持同等准确率的前提下,相关Token消耗降低了47%。
在考验“智商”的学术与推理测试中,它的表现同样耀眼:GPQA Diamond科学问答接近满分(92.8%);在高难度综合测试Humanity‘s Last Exam中达到52.1%;而在衡量抽象推理能力的ARC-AGI-2测试中,得分跃升至73.3%,远超GPT-5.2 Pro的54.2%。
最后是可靠性,这或许是专业应用中最关键的指标。GPT-5.4的单条事实错误概率降低了33%,完整回答的出错率降低了18%,成为OpenAI迄今为止事实准确性最高的模型。
如何使用GPT‑5.4
对于大多数用户而言,最直接的体验途径是通过ChatGPT。GPT-5.4已经向ChatGPT Plus、Team和Pro用户开放,并替代了之前的GPT-5.2 Thinking,成为默认的思考模型。只需访问官网或使用App即可。
开发者则可以通过OpenAI API进行调用。使用API密钥访问 gpt-5.4 或 gpt-5.4-pro 模型端点,即可利用其百万Token上下文和工具搜索等全部高级功能,费用按实际Token使用量计算。
如果是专注于编程,可以访问Codex平台。输入 /fast 命令开启加速模式,或者使用实验性的100万Token上下文窗口来处理大型代码项目,还能体验Playwright Interactive可视化调试功能。
GPT‑5.4的产品定价
目前主要通过两种方式提供服务:
ChatGPT订阅制:Plus或Business订阅包含GPT-5.4 Thinking模型,每周有3000次使用额度;而Pro订阅则包含功能更强大的GPT-5.4 Pro模型,且没有使用次数限制。
API按量计费:对于标准版GPT-5.4,输入Token费用为每百万2.5美元,缓存输入每百万0.25美元,输出为每百万15美元。性能更强的GPT-5.4 Pro版本,输入输出费用更高,分别为每百万30美元和180美元。
GPT‑5.4的应用场景
如此强大的能力,将首先在哪些领域落地?从目前展示的特性来看,以下几个场景的变革近在眼前:
办公自动化:制作PPT、财务建模、数据分析、文档处理等重复性知识工作,将迎来一位不知疲倦的专家级助手。
智能Agent:能够自主操作电脑,完成跨应用的序列任务,例如自动发送邮件、填写在线表单、调度日程、进行批量数据录入等,实现真正的“数字员工”。
软件开发:从全栈代码生成、审查到Bug修复,配合边写边测的交互调试,它甚至能独立构建复杂的Web应用或小游戏,极大提升开发效率。
企业流程:通过API接入企业内部系统,可以扮演RPA(机器人流程自动化)的角色,自动化处理税务申报、合同审核、客户服务等长周期、多步骤的复杂流程。
深度研究:对于需要从海量网络信息中筛选、比对和验证的复杂研究课题,它的多轮深度网页搜索与信息整合能力将成为研究者的利器。
总而言之,GPT-5.4不仅仅是一次模型迭代,它更像是一个明确的信号:AI正在从一个被动的问答工具,转变为一个能主动理解环境、操作工具、执行复杂任务的智能体。专业工作的范式,或许真的要改变了。
相关攻略
RynnBrain是什么 在具身智能领域,如何让机器人真正理解并适应复杂的物理世界,始终是核心挑战。近期,阿里巴巴达摩院发布了一项重要成果——开源了名为RynnBrain的具身智能大脑基础模型。这一模型实现了关键突破,首次赋予机器人接近人类的时空记忆与物理空间推理能力。 具体而言,RynnBrain
SkyReels-V3是什么 视频创作的门槛,正在被一项新技术重新定义。最近,昆仑万维开源的SkyReels-V3,可以说在业内投下了一枚“重磅冲击波”。它不再是一个功能单一的玩具,而是一个用单一架构就能实现专业级视频创作的“多面手”。简单来说,它能让你手里的静态照片“活”起来,变成动态影像;还能智
ClawWork是什么 如果让AI去真实世界里“打工”,它能不能养活自己?香港大学数据科学实验室(HKUDS)开源的ClawWork项目,就是为了回答这个问题而生的。它本质上是一个AI Agent的“经济生存”基准测试框架,专门评估大模型在模拟真实商业环境中的“赚钱能力”。 这套系统的规则很现实:给
FireRed-Image-Edit是什么 在AI图像生成与编辑领域,开源模型正迅速崛起,其能力已能比肩甚至超越部分闭源方案。近期,由小红书Super Intelligence团队研发并开源的FireRed-Image-Edit模型,便是这一趋势下的杰出代表。这款基于先进扩散架构的通用图像编辑AI,
在人工智能模型普遍追求规模与通用性的当下,开发者们迫切需要一款能够真正“看懂”图像、“听懂”声音、“读懂”文字,并能自由进行跨模态内容创作的“全能型”AI工具。近期,蚂蚁集团重磅开源的全模态大语言模型Ming-flash-omni-2 0,正将这一愿景变为现实。它不仅彻底打通了图像、视频、音频与文本
热门专题
热门推荐
水产市场是什么 在AI Agent的生态中,能力共享与协同进化是核心驱动力。水产市场(Seafood Market)正是为OpenClaw框架量身打造的AI Agent能力共享平台。你可以将其理解为AI领域的“应用商店”或“技能交易中心”,旨在实现AI能力的快速流通与组合创新。 目前,平台已集成超过
在信息爆炸的时代,高效地将音视频内容转化为可编辑、可检索的文字,已经成为内容创作者、研究者和职场人士的刚需。今天要聊的这款工具——MeowTXT,正是瞄准了这一痛点,它不仅仅是一个简单的转录工具,更是一个集成了智能识别、摘要和翻译的AI生产力平台。 MeowTXT是什么 简单来说,MeowTXT是一
OpenFang是什么 在AI Agent领域,我们常常面临一个困境:大多数系统仍然停留在“你说一句,它动一下”的被动模式,离真正的自动化还有距离。今天要聊的OpenFang,正是在尝试打破这个局面。它是一个用Rust语言构建的开源Agent操作系统,其核心创新在于引入了“Hands”的概念——你可
AngelSlim是什么 随着大模型参数规模不断增长,如何实现高效推理与低成本部署已成为开发者面临的核心挑战。腾讯混元团队推出的开源工具包AngelSlim,正是为解决这一难题而生。它是一个面向全模态大模型的综合压缩与加速解决方案,集成了量化、投机采样、稀疏化及知识蒸馏等前沿技术,旨在为各类大语言模
在信息过载的数字化时代,音频与视频内容已成为知识传递、创意表达与商业沟通的核心载体。然而,如何将这些宝贵的非结构化媒体资产,高效、精准地转化为可搜索、可分析、可编辑的文本格式,始终是内容创作者、市场研究人员、学者及商务人士的核心痛点。一款强大的AI转录工具,正是打通音视频内容价值闭环、释放生产力潜能





