2026年3月5日,OpenAI正式发布了其最新一代旗舰模型GPT-5.4。
本次升级的核心突破在于,GPT-5.4首次将"深度推理能力(Reasoning)"、"高级编程能力"与"原生计算机操控能力(Native Computer Use)"三大核心模块无缝融合为一体。简单来说,GPT-5.4 = GPT 5.2的全面进化 + GPT-5.3-Codex级别的编程实力 + 百万Token上下文窗口 + 智能工具搜索机制。据官方介绍,这一整合并未削弱任何单项能力。简而言之,OpenAI已将目前所有顶尖技术悉数注入GPT 5.4之中。
对比上一代旗舰GPT 5.2
1、专业知识工作能力
GPT-5.4在专业知识工作领域的提升,堪称本次升级中最亮眼的亮点。OpenAI采用名为GDPval的基准测试,用于评估模型在真实职业场景中的表现。该测试覆盖了美国GDP贡献最大的9大行业、44个职业方向,任务涵盖制作销售演示文稿、会计电子表格、医疗排班表、制造业图纸乃至短视频等多种场景,覆盖面极为广泛。
测试结果如何?GPT-5.4在83.0%的任务对比中达到或超越了人类行业专家水平,而GPT-5.2的这一比例为70.9%。这意味着GPT-5.4已在绝大多数专业工作中展现出与资深从业者相当甚至更优的能力。随着AI能力不断增强,企业引入AI辅助工作、优化人力结构、降低成本等趋势背后的影响,确实值得深入思考。
2、智能指数
在业内公认的"Artificial Analysis智能指数"排行榜上,GPT-5.4的表现同样令人瞩目。它取得了57分的综合高分,与Google的Gemini 3.1 Pro Preview并列第一,共同领跑所有AI模型。图中醒目的紫色箭头直观展示了这次代际跨越——从GPT-5.2的51分跃升至GPT-5.4,分数的大幅提升标志着模型"智力"的质变。它不仅超越了自家之前的GPT-5.3(54分),也击败了强劲竞争对手Claude Opus 4.6(53分)。
3、事实准确性
幻觉问题,即AI一本正经地生成错误信息,一直是大语言模型的核心痛点。GPT-5.4在这一方面实现了显著进步,成为OpenAI有史以来事实准确性最高的模型。在一组基于用户实际反馈中标记了事实错误的提示词测试中,与GPT-5.2相比,GPT-5.4的单个事实陈述出错率降低了33%,完整回答中包含任何错误的概率降低了18%。简而言之,无论是单个知识点还是整体回答,GPT-5.4犯错的可能性都大幅下降。对于依赖AI进行调研、撰写报告、辅助决策的专业用户来说,这一提升意义重大。
4、原生计算机操控能力:AI真正学会了用电脑
GPT-5.4最令人兴奋的新功能之一,是它成为OpenAI首个原生支持计算机使用(Computer Use)的通用模型。这意味着AI智能体可以像人类一样通过截屏观察屏幕画面、通过键盘和鼠标指令操作软件,自主完成跨应用的复杂工作流程。在衡量计算机操控能力的OSWorld-Verified基准测试中,GPT-5.4取得了75.0%的成功率,不仅大幅超越GPT-5.2的47.3%(提升了近28个百分点),甚至超过了人类操作者的72.4%。这是AI在桌面操作任务上首次超越人类表现——这才是真正的杀手级应用。
5、编码能力:继承并超越Codex
GPT-5.4融合了此前GPT-5.3-Codex的编码优势。在真实软件工程能力的SWE-Bench Pro基准测试中,GPT-5.4得分57.7%,与GPT-5.3-Codex的56.8%持平并略有提升,而GPT-5.2为55.6%。虽然编码方面的绝对分数提升不算巨大,但GPT-5.4的真正优势在于,它将编码能力与推理、工具调用和计算机操控等能力无缝整合——这才是真正的"全能选手"。
6、视觉理解与文档解析能力提升
视觉能力方面同样取得了进步。在MMMU-Pro视觉理解与推理测试中,GPT-5.4取得了81.2%的成功率,高于GPT-5.2的79.5%。在OmniDocBench文档解析测试中,GPT-5.4的平均错误率降至0.109,优于GPT-5.2的0.140。从GPT-5.4开始,API还新增了original图像输入级别,最高支持1024万总像素或单边最大6000像素的全保真图像感知;原有的high级别也升级到了256万总像素。这使得模型在处理高分辨率图像、精密文档和复杂图表时更加得心应手。
7、价格与可用性对比
能力提升的同时,价格也相应上涨。相比GPT-5.2,GPT-5.4的API价格有所提高,这也反映了其更高的计算成本与价值。
GPT 5.4初体验
版本号
你是什么模型,具体是什么版本号,知识截止日期是几号
GPT 5.4 - 深度研究
提示词:OpenAI发布最新旗舰模型GPT 5.4,总结其更新内容
200美金/月的GPT 5.4 Pro
写作王者 - Gemini 3.1 Pro
编程王者 - Claude Sonnet 4.6
请用 Ja va 设计并实现一个支持高并发的电商微服务系统(基于 Spring Boot/Spring Cloud),要求包含订单、库存等服务,需解决分布式事务与超卖问题,使用 Redis/Kafka 进行异步解耦,并提供核心代码、配置及部署方案,同时说明高并发优化与容错限流设计思路。
AI绘画 - 香蕉Nano Banana Pro
提示词:用这张图片,做一个 3 * 3的photo booth grid,要使用不同的姿势和表情
