游乐游手机版
首页/AI教程/文章详情

GPT-5.4发布编程能力超越Claude Opus 4.6

时间:2026-05-29 06:53
OpenAI于2026年3月发布GPT-5 4,首次整合推理、编程与原生计算机操控能力。在专业知识测试中83%任务达到或超越人类专家水平,智能指数57分与Gemini3 1Pro并列第一,事实错误率降低33%,计算机操控成功率75%超越人类,编码与视觉能力均有提升,API价格同步上调。

2026年3月5日,OpenAI正式发布了其最新一代旗舰模型GPT-5.4。

本次升级的核心突破在于,GPT-5.4首次将"深度推理能力(Reasoning)"、"高级编程能力"与"原生计算机操控能力(Native Computer Use)"三大核心模块无缝融合为一体。简单来说,GPT-5.4 = GPT 5.2的全面进化 + GPT-5.3-Codex级别的编程实力 + 百万Token上下文窗口 + 智能工具搜索机制。据官方介绍,这一整合并未削弱任何单项能力。简而言之,OpenAI已将目前所有顶尖技术悉数注入GPT 5.4之中。

对比上一代旗舰GPT 5.2

1、专业知识工作能力

GPT-5.4在专业知识工作领域的提升,堪称本次升级中最亮眼的亮点。OpenAI采用名为GDPval的基准测试,用于评估模型在真实职业场景中的表现。该测试覆盖了美国GDP贡献最大的9大行业、44个职业方向,任务涵盖制作销售演示文稿、会计电子表格、医疗排班表、制造业图纸乃至短视频等多种场景,覆盖面极为广泛。

测试结果如何?GPT-5.4在83.0%的任务对比中达到或超越了人类行业专家水平,而GPT-5.2的这一比例为70.9%。这意味着GPT-5.4已在绝大多数专业工作中展现出与资深从业者相当甚至更优的能力。随着AI能力不断增强,企业引入AI辅助工作、优化人力结构、降低成本等趋势背后的影响,确实值得深入思考。

2、智能指数

在业内公认的"Artificial Analysis智能指数"排行榜上,GPT-5.4的表现同样令人瞩目。它取得了57分的综合高分,与Google的Gemini 3.1 Pro Preview并列第一,共同领跑所有AI模型。图中醒目的紫色箭头直观展示了这次代际跨越——从GPT-5.2的51分跃升至GPT-5.4,分数的大幅提升标志着模型"智力"的质变。它不仅超越了自家之前的GPT-5.3(54分),也击败了强劲竞争对手Claude Opus 4.6(53分)。

3、事实准确性

幻觉问题,即AI一本正经地生成错误信息,一直是大语言模型的核心痛点。GPT-5.4在这一方面实现了显著进步,成为OpenAI有史以来事实准确性最高的模型。在一组基于用户实际反馈中标记了事实错误的提示词测试中,与GPT-5.2相比,GPT-5.4的单个事实陈述出错率降低了33%,完整回答中包含任何错误的概率降低了18%。简而言之,无论是单个知识点还是整体回答,GPT-5.4犯错的可能性都大幅下降。对于依赖AI进行调研、撰写报告、辅助决策的专业用户来说,这一提升意义重大。

4、原生计算机操控能力:AI真正学会了用电脑

GPT-5.4最令人兴奋的新功能之一,是它成为OpenAI首个原生支持计算机使用(Computer Use)的通用模型。这意味着AI智能体可以像人类一样通过截屏观察屏幕画面、通过键盘和鼠标指令操作软件,自主完成跨应用的复杂工作流程。在衡量计算机操控能力的OSWorld-Verified基准测试中,GPT-5.4取得了75.0%的成功率,不仅大幅超越GPT-5.2的47.3%(提升了近28个百分点),甚至超过了人类操作者的72.4%。这是AI在桌面操作任务上首次超越人类表现——这才是真正的杀手级应用。

5、编码能力:继承并超越Codex

GPT-5.4融合了此前GPT-5.3-Codex的编码优势。在真实软件工程能力的SWE-Bench Pro基准测试中,GPT-5.4得分57.7%,与GPT-5.3-Codex的56.8%持平并略有提升,而GPT-5.2为55.6%。虽然编码方面的绝对分数提升不算巨大,但GPT-5.4的真正优势在于,它将编码能力与推理、工具调用和计算机操控等能力无缝整合——这才是真正的"全能选手"。

6、视觉理解与文档解析能力提升

视觉能力方面同样取得了进步。在MMMU-Pro视觉理解与推理测试中,GPT-5.4取得了81.2%的成功率,高于GPT-5.2的79.5%。在OmniDocBench文档解析测试中,GPT-5.4的平均错误率降至0.109,优于GPT-5.2的0.140。从GPT-5.4开始,API还新增了original图像输入级别,最高支持1024万总像素或单边最大6000像素的全保真图像感知;原有的high级别也升级到了256万总像素。这使得模型在处理高分辨率图像、精密文档和复杂图表时更加得心应手。

7、价格与可用性对比

能力提升的同时,价格也相应上涨。相比GPT-5.2,GPT-5.4的API价格有所提高,这也反映了其更高的计算成本与价值。

GPT 5.4初体验

版本号

你是什么模型,具体是什么版本号,知识截止日期是几号

GPT 5.4 - 深度研究

提示词:OpenAI发布最新旗舰模型GPT 5.4,总结其更新内容

200美金/月的GPT 5.4 Pro

写作王者 - Gemini 3.1 Pro

编程王者 - Claude Sonnet 4.6

请用 Ja va 设计并实现一个支持高并发的电商微服务系统(基于 Spring Boot/Spring Cloud),要求包含订单、库存等服务,需解决分布式事务与超卖问题,使用 Redis/Kafka 进行异步解耦,并提供核心代码、配置及部署方案,同时说明高并发优化与容错限流设计思路。

AI绘画 - 香蕉Nano Banana Pro

提示词:用这张图片,做一个 3 * 3的photo booth grid,要使用不同的姿势和表情

来源:https://juejin.cn/post/7614020998102679558
上一篇Gyftter礼品赠送平台功能介绍与使用指南 下一篇驻村工作汇报怎么写?附详细范文与写作技巧
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
AI应用层真正赚钱的企业有哪些
AI教程 · 2026-07-05

AI应用层真正赚钱的企业有哪些

AI应用层商业化呈现订阅制、API调用、广告三种模式,Midjourney和Cursor通过订阅制实现盈利,而多数公司因推理成本高导致亏损。2025至2026年处于融资驱动阶段,2027至2028年将转向利润驱动,届时成本下降与付费习惯成熟后赢家才会浮现。

BI公司当下启动全面战略转型
AI教程 · 2026-07-05

BI公司当下启动全面战略转型

观远数据宣布从数据智能全面转向决策智能,发布DecideX平台,应对大模型对BI行业的冲击。转型面临案例规模化复制、FDE重服务模式能否变轻、自身AI原生转型等挑战,同时布局出海与港股IPO。

边缘人工智能每日早报七月五日最新发布
AI教程 · 2026-07-05

边缘人工智能每日早报七月五日最新发布

AI编码能力提升40%但80%内容需人工审核,决策疲劳成新瓶颈;AI漏洞发现速度超越修复能力,6月高危漏洞达1500个创新高;学生使用AI使作业分数升18%但考试成绩降20%;欧盟拟禁16岁以下接触战利品箱,影响280亿美元市场;多模态提示正成为AI智能体新母语。

ARD协议解读:Agent行业拐点已至
AI教程 · 2026-07-05

ARD协议解读:Agent行业拐点已至

谷歌联合微软等发布ARD开放规范,补齐了Agent资源发现的关键拼图,与MCP、A2A构成完整互联体系。加上安全、调度等基础设施加速成熟,Agent规模化落地前提条件已基本齐备,行业正从单体能力竞争转向生态互联,迎来规模化发展的拐点。

ControlNet Mac电脑的详细完整安装教程:Apple Silicon与Intel配置步骤详解
AI教程 · 2026-07-05

ControlNet Mac电脑的详细完整安装教程:Apple Silicon与Intel配置步骤详解

ControlNet是常用AI绘画控制插件,macOS安装需区分AppleSilicon与Intel环境,重点处理Python、WebUI、插件目录、模型文件和启动参数,配置前应做好备份并关注版本兼容。