游乐游手机版
首页/科技数码/文章详情

OpenAI强势发布GPT-5.4,专业AI模型轻松操作电脑玩转Excel与金融分析

时间:2026-03-06 09:28
更快更有判断力的GPT-5系列模型GPT-5 3 Instant问世才一天,美东时间5日周四,OpenAI就发布了全新的旗舰基础模型GPT-5 4,在ChatGPT、API以及开发工具Codex中同

更快更有判断力的GPT-5系列模型GPT-5.3 Instant问世才一天,美东时间5日周四,OpenAI就发布了全新的旗舰基础模型GPT-5.4,在ChatGPT、API以及开发工具Codex中同步上线。

OpenAI称GPT-5.4是“迄今能力最强、最高效的专业工作前沿模型”,重点面向企业办公与复杂知识工作场景。相比此前版本,GPT-5.4的最大变化在于强化AI智能体(Agent)的能力。在API和Codex中,GPT-5.4首次实现了原生级“电脑操作”功能,支持智能体跨软件执行复杂工作流。

GPT-5.4不仅能生成文本或代码,还首次将原生电脑操控能力引入通用模型,能直接操作电脑软件、浏览网页、控制鼠标和键盘完成任务,并可与电子表格、金融分析工具等企业应用深度整合,深度嵌入微软Excel和谷歌表格。

在ChatGPT中,GPT-5.4支持“提前展示思维过程”,允许用户在模型响应过程中调整任务方向,并提升了深度网页搜索与长逻辑语境下的上下文保持能力。

业内认为,GPT-5.4的一系列升级标志着AI模型正从“对话工具”走向自动化执行任务的数字代理系统,进一步渗透企业生产力软件与专业知识工作。

OpenAI本周四同时推出两个版本,包括更擅长复杂推理的GPT-5.4 Thinking以及高性能的GPT-5.4 Pro,分别面向付费用户和高端企业用户。

在计算机操控基准测试OSWorld-Verified中,GPT-5.4以75.0%的成功率超越人类平均水平72.4%,较前代GPT-5.2的47.3%大幅跃升。同期发布的财务服务套件显示,GPT-5.4在OpenAI内部投行基准测试中的得分从GPT-5的43.7%跃升至88.0%。


早期测试机构给出积极反馈。投资公司Walleye Capital的AI解决方案主管Daniel Swiecki表示,GPT-5.4在内部财务和Excel评估中准确率提升了30个百分点。AI人才平台Mercor的CEO Brendan Foody称其为该公司“迄今尝试过的最佳模型”,并表示GPT-5.4已在Mercor面向专业服务工作的APEX-Agents基准测试中排名第一。

通用模型中首次内置原生电脑操控功能 突破单轮问答边界

GPT-5.4最具突破性的能力在于其原生电脑操控功能,这也是OpenAI首次在通用模型中内置该能力。通过API和Codex,该模型可像人类一样操控计算机,跨应用完成多步骤工作流程。

具体而言,GPT-5.4既可通过Playwright等库编写代码来操控计算机,也可直接响应截图发出鼠标和键盘指令,开发者还可配置自定义确认策略以适配不同风险容忍度场景。

基准测试数据支撑了这一能力的实质性进步:在测试桌面导航能力的OSWorld-Verified中,GPT-5.4成功率达75.0%,不仅超过GPT-5.2的47.3%,也超越了人类基准水平72.4%;在浏览器操控测试WebArena-Verified中,成功率为67.3%,高于GPT-5.2的65.4%;在Online-Mind2Web中,仅凭截图即实现92.8%的成功率。

在网络搜索能力方面,BrowseComp测试显示GPT-5.4较GPT-5.2提升17个百分点,GPT-5.4 Pro更以89.3%的成绩创下该基准测试的最高评分纪录。


地产科技公司Mainstay的CEO Dod Fraser表示,在覆盖约3万个房产税门户的测试中,GPT-5.4首次尝试成功率达95%,三次内成功率达100%,相比此前的计算机操控模型(成功率约73%至79%)大幅提升,同时完成速度加快约3倍,tokens消耗减少约70%。

工具搜索机制重构 大幅降低token消耗

随着工具生态规模扩大,如何高效管理工具调用成为制约代理系统落地的瓶颈。GPT-5.4在API中引入"工具搜索"(Tool Search)机制,从根本上改变了工具定义的传递方式。

此前,模型在每次请求时均需在提示词中预加载全部工具定义,在工具数量庞大的系统中,这会在每次请求中额外消耗数千乃至数万tokens,推高成本、增加延迟并稀释上下文。新机制下,模型仅接收工具的轻量化列表,仅在实际需要使用某工具时才按需检索其完整定义。

OpenAI以具体数据佐证效果:在使用Scale的MCP Atlas基准测试的250项任务中,启用全部36个MCP服务器的配置下,工具搜索模式相较将全部MCP功能直接暴露于上下文的模式,在保持相同准确率的前提下,总token用量减少47%。


Zapier的CEO Wade表示,GPT-5.4在该公司横跨数百个高级真实工作流的工具使用基准测试中表现优异,"是迄今为止最具持续性的模型"。

金融与企业场景:Excel深度集成,投行任务成绩翻倍

与GPT-5.4同步发布的还有面向企业和金融机构的“OpenAI金融服务”套件,核心产品是ChatGPT for Excel和Google Sheets(测试版)——ChatGPT将直接嵌入电子表格单元格,支持构建、分析和更新复杂财务模型。

该套件还整合了FactSet、MSCI、Third Bridge和Moody's等数据合作伙伴,并推出可复用的Skills功能,覆盖盈利预览、可比公司分析、DCF估值分析及投资备忘录撰写等高频金融工作场景。

在内部投行基准测试中,GPT-5.4 Thinking的得分从GPT-5的43.7%跃升至88.0%;在模拟初级投行分析师电子表格建模任务的测试中,GPT-5.4平均得分87.3%,远高于GPT-5.2的68.4%。


法律AI平台Harvey的应用研究主管Niko Grupen表示,GPT-5.4在该公司BigLaw Bench评估中得分91%,"在结构化复杂交易分析、跨长篇合同保持准确性以及提供法律从业者所需的高度细节方面,目前优于其他模型"。

知识工作与幻觉抑制:全面对标专业人士

OpenAI在多个衡量真实职场输出的基准测试上展示了GPT-5.4的能力边界。在GDPval测试中——该测试涵盖44个职业的知识工作任务,包括销售演示、会计表格、制造业图表等真实工作产出——GPT-5.4在83.0%的比较中达到或超越行业专业人士水平,高于GPT-5.2的71.0%。


在演示文稿质量评估中,人类评审在68.0%的情况下更偏好GPT-5.4的输出,原因包括更强的视觉美感、更丰富的视觉多样性以及更有效的图像生成应用。

在幻觉和事实错误控制方面,OpenAI表示GPT-5.4是其"迄今最具事实准确性的模型":在用户此前标记过事实错误的去标识化提示词测试集上,GPT-5.4的单项陈述错误率较GPT-5.2降低33%,完整回应中出现任意错误的概率降低18%。

在编程能力方面,GPT-5.4在SWE-Bench Pro上的表现与GPT-5.3-Codex持平或更优,且在各推理强度设置下延迟更低。Codex的/fast模式可为GPT-5.4带来最高1.5倍的token生成速度提升,该模式使用相同模型与相同智能,仅在速度层面进行优化。GitHub首席产品官Mario Rodriguez表示,GPT-5.4在逻辑推理及执行复杂多步骤工具依赖工作流方面表现突出,"是企业第一天就应该采用的模型"。

两个版本分层覆盖不同用户需求 上下文窗口最高100万token

GPT-5.4 Thinking面向需要深度推理的通用专业场景,GPT-5.4 Pro则专为最复杂任务设计,追求性能上限。

在ChatGPT端,GPT-5.4 Thinking从本周四起向Plus(月费20美元)、Team及Pro用户开放,取代此前的GPT-5.2 Thinking,GPT-5.2 Thinking将在三个月后于2026年6月5日正式退役。

GPT-5.4 Pro仅限Pro(月费200美元)及Enterprise计划用户使用。免费用户亦可在系统自动路由时有限接触GPT-5.4。企业和教育计划用户可通过管理员设置提前开启访问权限。

在API端,GPT-5.4以gpt-5.4标识符提供,GPT-5.4 Pro以gpt-5.4-pro提供,两者均可在Codex开发平台使用。API最大输出为12.8万token,与此前模型保持一致。API及Codex同时支持最高100万token的上下文窗口,是OpenAI迄今提供的最大上下文容量,适合跨步骤长链路任务的规划、执行与验证。

定价高于前代,效率提升部分抵消成本增加

在API定价上,GPT-5.4的价格相较GPT-5.2有所上调。具体如下:

GPT-5.4:输入2.50美元/百万token,输出15美元/百万token(GPT5.2的定价为输入1.75美元/百万token、输出14美元/百万token)GPT-5.4 Pro:输入30美元/百万token,输出180美元/百万token(GPT5.2 Pro为输入21美元/百万token、输出168美元/百万token)Batch及Flex定价享半价优惠,Priority(优先)处理则按标准价格的两倍计费


值得注意的是,当单次输入超过27.2万token时,超出部分将按两倍标准费率计费。在Codex中,默认压缩上限为27.2万token,开发者可手动上调上限以处理更大提示词,超出部分方触发较高计费。

OpenAI对较高定价给出三点解释:一是在编程、计算机操控、深度研究、高级文档生成及工具调用等复杂任务上能力更强;二是来自研究路线图的重大技术进步;三是更高效的推理机制在相同任务上消耗更少推理tokens,一定程度上抵消了单价上升的影响。OpenAI同时表示,即便提价,GPT-5.4的定价仍低于同等能力的竞品前沿模型。

来源:https://www.163.com/dy/article/KNAD9EUR05198NMR.html
上一篇极氪升级900V平台:主销车型实现全域混动与齐发加速 下一篇莲花LTS专属调校标准首曝 全新SUV For Me将全球上市
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
神舟二十一号乘组返回反推发动机如何守护航天员
科技数码 · 2026-05-30

神舟二十一号乘组返回反推发动机如何守护航天员

神舟二十一号乘组乘坐神舟二十二号飞船成功着陆。反推发动机在距地1米处10毫秒内同时点火,产生12吨推力,使速度降至每秒1-2米,实现软着陆,连续第16次完成任务。

宝马德国工厂引入新机器人助力1系与2系生产
科技数码 · 2026-05-30

宝马德国工厂引入新机器人助力1系与2系生产

宝马莱比锡工厂今年夏季部署HexagonRobotics公司的人形机器人AEON,用于进行高压电池组装及零部件制造,涵盖纯电动版MINICountrymanE与轻混版宝马1系与2系。机器人身高1 65米,可搬运15公斤物品,连续工作8小时,并且能自行更换电池。

澳门BEYOND博览会聚焦AI从数字世界迈向真实场景
科技数码 · 2026-05-30

澳门BEYOND博览会聚焦AI从数字世界迈向真实场景

2026年澳门BEYOND博览会以“AI:数实共生”为主题,聚焦具身智能、机器人、空间计算等前沿技术领域。近800家企业带来AI眼镜、人形机器人、智慧服务平台等创新成果,集中展现了人工智能从数字世界向物理世界延伸的实践与突破,生动诠释数实共生的未来趋势。

科大讯飞40克AI眼镜入局,智能穿戴刚需何时到来
科技数码 · 2026-05-30

科大讯飞40克AI眼镜入局,智能穿戴刚需何时到来

科大讯飞发布40克AI眼镜,支持122种语言翻译,内置GlassClaw助理与唇动识别降噪技术,定价4299元。目标锁定商务人群,解决跨语言沟通、会议整理等刚需。隐私层面配备磁吸遮挡片与端侧处理,行业标准待建立。

五五购物节周末五五折,百家商户两千余款商品低至3折
科技数码 · 2026-05-30

五五购物节周末五五折,百家商户两千余款商品低至3折

上海“五五购物节”开启“周末五五折”活动,分两期覆盖五月末和端午假期。百家商户携两千余款商品低至3折起,涵盖食品、家居、服饰等八大品类,外贸优品与老字号同台亮相,并提供皮具、眼镜等个性化定制服务。