GPT-4.5专业任务达人类专家水平,OpenAI发布新版模型
来源:环球网
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
【环球网科技综合报道】3月6日消息,据TechCrunch报道,OpenAI今日正式发布GPT-5.4系列人工智能模型,包含面向ChatGPT和API的GPT-5.4+Thinking版本,以及针对复杂任务打造的GPT-5.4+Pro版本。这是该平台首次将前沿推理、编码与智能体能力整合于单一模型,在计算机原生操控、专业知识工作处理、长上下文理解等方面实现多项升级,进一步提升了人工智能在专业工作场景中的效率与准确性。

此次发布的GPT-5.4系列模型带来多项核心功能升级。其中,GPT-5.4+Thinking在ChatGPT中新增“思考过程预览”功能,处理复杂查询时可提前展示推理思路,用户能在响应过程中实时调整需求方向,减少沟通成本,该功能已登陆网页版和Android应用,iOS版本也将很快推出。针对深度网络研究需求,新模型强化了长上下文连贯性,面对需要长时间思考的问题,能更好地衔接对话前序步骤,保障答案的相关性与一致性。值得关注的是,GPT-5.4成为OpenAI首个具备原生计算机使用能力的通用模型,可通过截图识别和键盘鼠标指令完成计算机操作,实现跨应用的复杂工作流程处理,同时该系列模型支持高达100万tokens的上下文窗口,为智能体规划、执行和验证长周期任务提供了基础。
在专业知识工作表现上,GPT-5.4实现大幅突破。据OpenAI测试数据显示,在44个职业领域的GDPval基准测试中,该模型有83.0%的项目达到或超过行业专业水平,相较于前代GPT-5.2的70.9%提升显著。在投行级电子表格建模任务中,GPT-5.4平均得分87.3%,远高于GPT-5.2的68.4%;演示文稿生成方面,68.0%的评审者更认可GPT-5.4的作品,其在美学设计、视觉变化和图像生成运用上表现更优。同时,GPT-5.4成为OpenAI迄今事实准确率最高的模型,相比GPT-5.2,单个陈述错误率降低33%,完整回答出现任一错误的可能性降低18%。
计算机使用与视觉感知能力的提升,是GPT-5.4的重要亮点。在OSWorld-Verified计算机桌面操作基准测试中,该模型成功率75.0%,不仅远超GPT-5.2的47.3%,还超过了人类72.4%的表现;WebArena-Verified浏览器使用测试中,结合DOM和截图驱动交互的成功率达67.3%,Online-Mind2Web测试中仅凭截图交互的成功率更是高达92.8%。视觉理解与推理方面,GPT-5.4在MMMU-Pro测试中成功率81.2%,OmniDocBench文档解析测试中平均错误率降至0.109,均较前代模型有明显优化。
编码能力与工具生态适配性也迎来升级。GPT-5.4融合了GPT-5.3-Codex的编码优势,在SWE-Bench+Pro基准测试中表现持平或更优,且延迟更低,Codex中的“/fast”模式还能让token速度提升1.5倍。新增的“工具搜索”功能,让模型能更高效地适配各类工具,在Scale的MCP+Atlas基准测试中,启用该功能后总token消耗量减少47%,同时在Toolathlon智能体工具使用测试中,实现了更少交互轮次与更高准确率的双重提升。此外,模型的网络搜索能力进一步增强,BrowseComp基准测试中性能较GPT-5.2提升17个百分点,GPT-5.4+Pro更是创下89.3%的新高。
在安全性与可用性层面,GPT-5.4延续了GPT-5.3-Codex的安全防护措施,还引入开源的“CoT可控性”评估体系,测试显示其思维链控制能力较低,更利于安全监控。定价方面,GPT-5.4+API的单token价格高于前代,但更高的token效率有效降低了多数任务的总消耗,平台还推出批量处理、Flex定价为标准费率一半,优先处理定价为两倍的差异化方案,满足不同用户需求。
据悉,GPT-5.4+Thinking即日起面向ChatGPT+Plus、Team和Pro用户开放,替代原有的GPT-5.2+Thinking,后者将作为“遗留模型”保留三个月,至2026年6月5日正式退役;Enterprise和Edu计划用户可通过管理员设置开启早期访问,GPT-5.4+Pro则面向Pro和Enterprise计划用户开放。API端,GPT-4以gpt-5.4名称提供支持,GPT-5.4+Pro以gpt-5.4-pro名称面向有极致性能需求的开发者开放,Codex中的GPT-5.4还支持1M上下文窗口的实验性功能。(纯钧)
相关攻略
近日,大连市工业和信息化局发布了大连市50个人工智能应用场景。记者注意到,这些场景包括多个行业的企业提交上来的场景需求15个、人工智能领域相关企业可提供的解决方案20个、大连市已落地的较好融合案例1
当大语言模型与AgenticAI(智能体)从试验场进入企业级生产环境,SaaS行业的底层价值逻辑正面临系统性重估。这一轮变革的核心,正指向“AI CRM 2 0”的全面到来——它不再是传统CRM的功
本文摘自《云栖战略参考》,这本刊物由阿里云与钛媒体联合策划。目的是为了把各个行业先行者的技术探索、业务实践呈现出来,与思考同样问题的“数智先行者”共同探讨、碰撞,希望这些内容能让你有所启发。文 阿里
智通财经APP获悉,华鑫证券发布研报称,百度集团-SW(09888)通过将OpenClaw深度融入其核心流量入口与产品生态,在AI智能体应用的普及阶段占据了先发优势。其“应用入口+云平台+模型生态”
智东西作者 云鹏编辑 漠影今年,一方面OpenClaw(龙虾)爆火出圈,各大云厂商、互联网大厂争先接入、适配龙虾。但另一方面,数据隐私安全问题一度冲上热搜,成为全民热议的社会现象。积极来看,“龙虾”
热门专题
热门推荐
PChome 3月31日消息,OPPO官微官宣,OPPOx哈苏影像新品联合发布会将于4月21日晚19:00在成都举办,Find X9s Pro、Find X9 Ultra等新品将至。据了解,OPPO
小红书网页版登录入口为https: www xiaohongshu com explore,支持扫码、手机号验证码及微信三种登录方式,首页默认瀑布流展示热门笔记,具备多维度内容检
两年前,谢添天发现自己的声音被一款APP“盗”走——用户输入文本,即可用他的音色生成以假乱真的AI声音。维权半年,因举证难度太高,最终以和解和对方致歉了结。两年后,一场大规模的联合发声,将AI盗声侵
来源:央广网3月28日至29日,以“发挥主流媒体引领力 激发多元主体创造力——共创繁荣网络内容生态”为主题的2026中国网络媒体论坛在河南郑州举行。网络媒体因技术而诞生,凭创新而繁荣。面对新一轮科技
当大语言模型与AgenticAI(智能体)从试验场进入企业级生产环境,SaaS行业的底层价值逻辑正面临系统性重估。这一轮变革的核心,正指向“AI CRM 2 0”的全面到来——它不再是传统CRM的功





