OpenAI强势发布GPT-5.4，专业AI模型轻松操作电脑玩转Excel与金融分析

时间：2026-03-06 09:28

更快更有判断力的GPT-5系列模型GPT-5 3 Instant问世才一天，美东时间5日周四，OpenAI就发布了全新的旗舰基础模型GPT-5 4，在ChatGPT、API以及开发工具Codex中同

更快更有判断力的GPT-5系列模型GPT-5.3 Instant问世才一天，美东时间5日周四，OpenAI就发布了全新的旗舰基础模型GPT-5.4，在ChatGPT、API以及开发工具Codex中同步上线。

OpenAI称GPT-5.4是“迄今能力最强、最高效的专业工作前沿模型”，重点面向企业办公与复杂知识工作场景。相比此前版本，GPT-5.4的最大变化在于强化AI智能体（Agent）的能力。在API和Codex中，GPT-5.4首次实现了原生级“电脑操作”功能，支持智能体跨软件执行复杂工作流。

GPT-5.4不仅能生成文本或代码，还首次将原生电脑操控能力引入通用模型，能直接操作电脑软件、浏览网页、控制鼠标和键盘完成任务，并可与电子表格、金融分析工具等企业应用深度整合，深度嵌入微软Excel和谷歌表格。

在ChatGPT中，GPT-5.4支持“提前展示思维过程”，允许用户在模型响应过程中调整任务方向，并提升了深度网页搜索与长逻辑语境下的上下文保持能力。

业内认为，GPT-5.4的一系列升级标志着AI模型正从“对话工具”走向自动化执行任务的数字代理系统，进一步渗透企业生产力软件与专业知识工作。

OpenAI本周四同时推出两个版本，包括更擅长复杂推理的GPT-5.4 Thinking以及高性能的GPT-5.4 Pro，分别面向付费用户和高端企业用户。

在计算机操控基准测试OSWorld-Verified中，GPT-5.4以75.0%的成功率超越人类平均水平72.4%，较前代GPT-5.2的47.3%大幅跃升。同期发布的财务服务套件显示，GPT-5.4在OpenAI内部投行基准测试中的得分从GPT-5的43.7%跃升至88.0%。

早期测试机构给出积极反馈。投资公司Walleye Capital的AI解决方案主管Daniel Swiecki表示，GPT-5.4在内部财务和Excel评估中准确率提升了30个百分点。AI人才平台Mercor的CEO Brendan Foody称其为该公司“迄今尝试过的最佳模型”，并表示GPT-5.4已在Mercor面向专业服务工作的APEX-Agents基准测试中排名第一。

通用模型中首次内置原生电脑操控功能突破单轮问答边界

GPT-5.4最具突破性的能力在于其原生电脑操控功能，这也是OpenAI首次在通用模型中内置该能力。通过API和Codex，该模型可像人类一样操控计算机，跨应用完成多步骤工作流程。

具体而言，GPT-5.4既可通过Playwright等库编写代码来操控计算机，也可直接响应截图发出鼠标和键盘指令，开发者还可配置自定义确认策略以适配不同风险容忍度场景。

基准测试数据支撑了这一能力的实质性进步：在测试桌面导航能力的OSWorld-Verified中，GPT-5.4成功率达75.0%，不仅超过GPT-5.2的47.3%，也超越了人类基准水平72.4%；在浏览器操控测试WebArena-Verified中，成功率为67.3%，高于GPT-5.2的65.4%；在Online-Mind2Web中，仅凭截图即实现92.8%的成功率。

在网络搜索能力方面，BrowseComp测试显示GPT-5.4较GPT-5.2提升17个百分点，GPT-5.4 Pro更以89.3%的成绩创下该基准测试的最高评分纪录。

地产科技公司Mainstay的CEO Dod Fraser表示，在覆盖约3万个房产税门户的测试中，GPT-5.4首次尝试成功率达95%，三次内成功率达100%，相比此前的计算机操控模型（成功率约73%至79%）大幅提升，同时完成速度加快约3倍，tokens消耗减少约70%。

工具搜索机制重构大幅降低token消耗

随着工具生态规模扩大，如何高效管理工具调用成为制约代理系统落地的瓶颈。GPT-5.4在API中引入"工具搜索"（Tool Search）机制，从根本上改变了工具定义的传递方式。

此前，模型在每次请求时均需在提示词中预加载全部工具定义，在工具数量庞大的系统中，这会在每次请求中额外消耗数千乃至数万tokens，推高成本、增加延迟并稀释上下文。新机制下，模型仅接收工具的轻量化列表，仅在实际需要使用某工具时才按需检索其完整定义。

OpenAI以具体数据佐证效果：在使用Scale的MCP Atlas基准测试的250项任务中，启用全部36个MCP服务器的配置下，工具搜索模式相较将全部MCP功能直接暴露于上下文的模式，在保持相同准确率的前提下，总token用量减少47%。

Zapier的CEO Wade表示，GPT-5.4在该公司横跨数百个高级真实工作流的工具使用基准测试中表现优异，"是迄今为止最具持续性的模型"。

金融与企业场景：Excel深度集成，投行任务成绩翻倍

与GPT-5.4同步发布的还有面向企业和金融机构的“OpenAI金融服务”套件，核心产品是ChatGPT for Excel和Google Sheets（测试版）——ChatGPT将直接嵌入电子表格单元格，支持构建、分析和更新复杂财务模型。

该套件还整合了FactSet、MSCI、Third Bridge和Moody's等数据合作伙伴，并推出可复用的Skills功能，覆盖盈利预览、可比公司分析、DCF估值分析及投资备忘录撰写等高频金融工作场景。

在内部投行基准测试中，GPT-5.4 Thinking的得分从GPT-5的43.7%跃升至88.0%；在模拟初级投行分析师电子表格建模任务的测试中，GPT-5.4平均得分87.3%，远高于GPT-5.2的68.4%。

法律AI平台Harvey的应用研究主管Niko Grupen表示，GPT-5.4在该公司BigLaw Bench评估中得分91%，"在结构化复杂交易分析、跨长篇合同保持准确性以及提供法律从业者所需的高度细节方面，目前优于其他模型"。

知识工作与幻觉抑制：全面对标专业人士

OpenAI在多个衡量真实职场输出的基准测试上展示了GPT-5.4的能力边界。在GDPval测试中——该测试涵盖44个职业的知识工作任务，包括销售演示、会计表格、制造业图表等真实工作产出——GPT-5.4在83.0%的比较中达到或超越行业专业人士水平，高于GPT-5.2的71.0%。

在演示文稿质量评估中，人类评审在68.0%的情况下更偏好GPT-5.4的输出，原因包括更强的视觉美感、更丰富的视觉多样性以及更有效的图像生成应用。

在幻觉和事实错误控制方面，OpenAI表示GPT-5.4是其"迄今最具事实准确性的模型"：在用户此前标记过事实错误的去标识化提示词测试集上，GPT-5.4的单项陈述错误率较GPT-5.2降低33%，完整回应中出现任意错误的概率降低18%。

在编程能力方面，GPT-5.4在SWE-Bench Pro上的表现与GPT-5.3-Codex持平或更优，且在各推理强度设置下延迟更低。Codex的/fast模式可为GPT-5.4带来最高1.5倍的token生成速度提升，该模式使用相同模型与相同智能，仅在速度层面进行优化。GitHub首席产品官Mario Rodriguez表示，GPT-5.4在逻辑推理及执行复杂多步骤工具依赖工作流方面表现突出，"是企业第一天就应该采用的模型"。

两个版本分层覆盖不同用户需求上下文窗口最高100万token

GPT-5.4 Thinking面向需要深度推理的通用专业场景，GPT-5.4 Pro则专为最复杂任务设计，追求性能上限。

在ChatGPT端，GPT-5.4 Thinking从本周四起向Plus（月费20美元）、Team及Pro用户开放，取代此前的GPT-5.2 Thinking，GPT-5.2 Thinking将在三个月后于2026年6月5日正式退役。

GPT-5.4 Pro仅限Pro（月费200美元）及Enterprise计划用户使用。免费用户亦可在系统自动路由时有限接触GPT-5.4。企业和教育计划用户可通过管理员设置提前开启访问权限。

在API端，GPT-5.4以gpt-5.4标识符提供，GPT-5.4 Pro以gpt-5.4-pro提供，两者均可在Codex开发平台使用。API最大输出为12.8万token，与此前模型保持一致。API及Codex同时支持最高100万token的上下文窗口，是OpenAI迄今提供的最大上下文容量，适合跨步骤长链路任务的规划、执行与验证。

定价高于前代，效率提升部分抵消成本增加

在API定价上，GPT-5.4的价格相较GPT-5.2有所上调。具体如下：

GPT-5.4：输入2.50美元/百万token，输出15美元/百万token（GPT5.2的定价为输入1.75美元/百万token、输出14美元/百万token）GPT-5.4 Pro：输入30美元/百万token，输出180美元/百万token（GPT5.2 Pro为输入21美元/百万token、输出168美元/百万token）Batch及Flex定价享半价优惠，Priority（优先）处理则按标准价格的两倍计费

值得注意的是，当单次输入超过27.2万token时，超出部分将按两倍标准费率计费。在Codex中，默认压缩上限为27.2万token，开发者可手动上调上限以处理更大提示词，超出部分方触发较高计费。

OpenAI对较高定价给出三点解释：一是在编程、计算机操控、深度研究、高级文档生成及工具调用等复杂任务上能力更强；二是来自研究路线图的重大技术进步；三是更高效的推理机制在相同任务上消耗更少推理tokens，一定程度上抵消了单价上升的影响。OpenAI同时表示，即便提价，GPT-5.4的定价仍低于同等能力的竞品前沿模型。

来源：https://www.163.com/dy/article/KNAD9EUR05198NMR.html

编程插件工作流 gpt 计算机新论文金融分析 openai

上一篇极氪升级900V平台：主销车型实现全域混动与齐发加速 下一篇莲花LTS专属调校标准首曝全新SUV For Me将全球上市

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

优必选CEO周剑：家庭机器人生态核心投入过半精力

先说几个核心判断：优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上，直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进，现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景，另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间，技术路线尚未收敛

6月30日，申银万国在光连接系列研报中重点指出，MPO光连接器领域的投资机会值得高度关注。通俗来说，随着AI算力集群持续扩张，光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件，如今它直接决定着链路插损、可

科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上，区级部门一次性推出了7个AI“龙搭子”。其中，名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解，依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”，已在今年五一假期发布了内测版本。经过一个月市场验证后，该项目正式启动面向全社会的

科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日，南下资金持续大举买入港股，单日净流入金额高达58 95亿港元。接下来，我们直接盘点哪些个股获得资金青睐、哪些遭到减持：净买入方面，中芯国际领跑全场，单日吸金19 33亿港元；建滔积层板紧随其后，净买入10 59亿港元；腾讯控股获得7 65亿港元净流入；智谱（02513 HK）也有6 5

科技数码 · 2026-07-01

电动汽车电池新国标7月实施热失控不起火不爆炸

自2026年7月1日起，两项关乎电动汽车安全的核心强制性国家标准将正式实施，为行业加装“安全锁”——《电动汽车安全要求》（GB 18384-2025）与《电动汽车用动力蓄电池安全要求》（GB 38031-2025）同步落地。此次标准升级，从整车架构与电池系统两大维度，精准填补了近年来多起事故暴露出的