GPT-5.4发布编程能力超越Claude Opus 4.6

时间：2026-05-29 06:53

OpenAI于2026年3月发布GPT-5 4，首次整合推理、编程与原生计算机操控能力。在专业知识测试中83%任务达到或超越人类专家水平，智能指数57分与Gemini3 1Pro并列第一，事实错误率降低33%，计算机操控成功率75%超越人类，编码与视觉能力均有提升，API价格同步上调。

2026年3月5日，OpenAI正式发布了其最新一代旗舰模型GPT-5.4。

本次升级的核心突破在于，GPT-5.4首次将"深度推理能力（Reasoning）"、"高级编程能力"与"原生计算机操控能力（Native Computer Use）"三大核心模块无缝融合为一体。简单来说，GPT-5.4 = GPT 5.2的全面进化 + GPT-5.3-Codex级别的编程实力 + 百万Token上下文窗口 + 智能工具搜索机制。据官方介绍，这一整合并未削弱任何单项能力。简而言之，OpenAI已将目前所有顶尖技术悉数注入GPT 5.4之中。

对比上一代旗舰GPT 5.2

1、专业知识工作能力

GPT-5.4在专业知识工作领域的提升，堪称本次升级中最亮眼的亮点。OpenAI采用名为GDPval的基准测试，用于评估模型在真实职业场景中的表现。该测试覆盖了美国GDP贡献最大的9大行业、44个职业方向，任务涵盖制作销售演示文稿、会计电子表格、医疗排班表、制造业图纸乃至短视频等多种场景，覆盖面极为广泛。

测试结果如何？GPT-5.4在83.0%的任务对比中达到或超越了人类行业专家水平，而GPT-5.2的这一比例为70.9%。这意味着GPT-5.4已在绝大多数专业工作中展现出与资深从业者相当甚至更优的能力。随着AI能力不断增强，企业引入AI辅助工作、优化人力结构、降低成本等趋势背后的影响，确实值得深入思考。

2、智能指数

在业内公认的"Artificial Analysis智能指数"排行榜上，GPT-5.4的表现同样令人瞩目。它取得了57分的综合高分，与Google的Gemini 3.1 Pro Preview并列第一，共同领跑所有AI模型。图中醒目的紫色箭头直观展示了这次代际跨越——从GPT-5.2的51分跃升至GPT-5.4，分数的大幅提升标志着模型"智力"的质变。它不仅超越了自家之前的GPT-5.3（54分），也击败了强劲竞争对手Claude Opus 4.6（53分）。

3、事实准确性

幻觉问题，即AI一本正经地生成错误信息，一直是大语言模型的核心痛点。GPT-5.4在这一方面实现了显著进步，成为OpenAI有史以来事实准确性最高的模型。在一组基于用户实际反馈中标记了事实错误的提示词测试中，与GPT-5.2相比，GPT-5.4的单个事实陈述出错率降低了33%，完整回答中包含任何错误的概率降低了18%。简而言之，无论是单个知识点还是整体回答，GPT-5.4犯错的可能性都大幅下降。对于依赖AI进行调研、撰写报告、辅助决策的专业用户来说，这一提升意义重大。

4、原生计算机操控能力：AI真正学会了用电脑

GPT-5.4最令人兴奋的新功能之一，是它成为OpenAI首个原生支持计算机使用（Computer Use）的通用模型。这意味着AI智能体可以像人类一样通过截屏观察屏幕画面、通过键盘和鼠标指令操作软件，自主完成跨应用的复杂工作流程。在衡量计算机操控能力的OSWorld-Verified基准测试中，GPT-5.4取得了75.0%的成功率，不仅大幅超越GPT-5.2的47.3%（提升了近28个百分点），甚至超过了人类操作者的72.4%。这是AI在桌面操作任务上首次超越人类表现——这才是真正的杀手级应用。

5、编码能力：继承并超越Codex

GPT-5.4融合了此前GPT-5.3-Codex的编码优势。在真实软件工程能力的SWE-Bench Pro基准测试中，GPT-5.4得分57.7%，与GPT-5.3-Codex的56.8%持平并略有提升，而GPT-5.2为55.6%。虽然编码方面的绝对分数提升不算巨大，但GPT-5.4的真正优势在于，它将编码能力与推理、工具调用和计算机操控等能力无缝整合——这才是真正的"全能选手"。

6、视觉理解与文档解析能力提升

视觉能力方面同样取得了进步。在MMMU-Pro视觉理解与推理测试中，GPT-5.4取得了81.2%的成功率，高于GPT-5.2的79.5%。在OmniDocBench文档解析测试中，GPT-5.4的平均错误率降至0.109，优于GPT-5.2的0.140。从GPT-5.4开始，API还新增了original图像输入级别，最高支持1024万总像素或单边最大6000像素的全保真图像感知；原有的high级别也升级到了256万总像素。这使得模型在处理高分辨率图像、精密文档和复杂图表时更加得心应手。