GPT-4.5专业任务达人类专家水平,OpenAI发布新版模型
来源:环球网
【环球网科技综合报道】3月6日消息,据TechCrunch报道,OpenAI今日正式发布GPT-5.4系列人工智能模型,包含面向ChatGPT和API的GPT-5.4+Thinking版本,以及针对复杂任务打造的GPT-5.4+Pro版本。这是该平台首次将前沿推理、编码与智能体能力整合于单一模型,在计算机原生操控、专业知识工作处理、长上下文理解等方面实现多项升级,进一步提升了人工智能在专业工作场景中的效率与准确性。

此次发布的GPT-5.4系列模型带来多项核心功能升级。其中,GPT-5.4+Thinking在ChatGPT中新增“思考过程预览”功能,处理复杂查询时可提前展示推理思路,用户能在响应过程中实时调整需求方向,减少沟通成本,该功能已登陆网页版和Android应用,iOS版本也将很快推出。针对深度网络研究需求,新模型强化了长上下文连贯性,面对需要长时间思考的问题,能更好地衔接对话前序步骤,保障答案的相关性与一致性。值得关注的是,GPT-5.4成为OpenAI首个具备原生计算机使用能力的通用模型,可通过截图识别和键盘鼠标指令完成计算机操作,实现跨应用的复杂工作流程处理,同时该系列模型支持高达100万tokens的上下文窗口,为智能体规划、执行和验证长周期任务提供了基础。
在专业知识工作表现上,GPT-5.4实现大幅突破。据OpenAI测试数据显示,在44个职业领域的GDPval基准测试中,该模型有83.0%的项目达到或超过行业专业水平,相较于前代GPT-5.2的70.9%提升显著。在投行级电子表格建模任务中,GPT-5.4平均得分87.3%,远高于GPT-5.2的68.4%;演示文稿生成方面,68.0%的评审者更认可GPT-5.4的作品,其在美学设计、视觉变化和图像生成运用上表现更优。同时,GPT-5.4成为OpenAI迄今事实准确率最高的模型,相比GPT-5.2,单个陈述错误率降低33%,完整回答出现任一错误的可能性降低18%。
计算机使用与视觉感知能力的提升,是GPT-5.4的重要亮点。在OSWorld-Verified计算机桌面操作基准测试中,该模型成功率75.0%,不仅远超GPT-5.2的47.3%,还超过了人类72.4%的表现;WebArena-Verified浏览器使用测试中,结合DOM和截图驱动交互的成功率达67.3%,Online-Mind2Web测试中仅凭截图交互的成功率更是高达92.8%。视觉理解与推理方面,GPT-5.4在MMMU-Pro测试中成功率81.2%,OmniDocBench文档解析测试中平均错误率降至0.109,均较前代模型有明显优化。
编码能力与工具生态适配性也迎来升级。GPT-5.4融合了GPT-5.3-Codex的编码优势,在SWE-Bench+Pro基准测试中表现持平或更优,且延迟更低,Codex中的“/fast”模式还能让token速度提升1.5倍。新增的“工具搜索”功能,让模型能更高效地适配各类工具,在Scale的MCP+Atlas基准测试中,启用该功能后总token消耗量减少47%,同时在Toolathlon智能体工具使用测试中,实现了更少交互轮次与更高准确率的双重提升。此外,模型的网络搜索能力进一步增强,BrowseComp基准测试中性能较GPT-5.2提升17个百分点,GPT-5.4+Pro更是创下89.3%的新高。
在安全性与可用性层面,GPT-5.4延续了GPT-5.3-Codex的安全防护措施,还引入开源的“CoT可控性”评估体系,测试显示其思维链控制能力较低,更利于安全监控。定价方面,GPT-5.4+API的单token价格高于前代,但更高的token效率有效降低了多数任务的总消耗,平台还推出批量处理、Flex定价为标准费率一半,优先处理定价为两倍的差异化方案,满足不同用户需求。
据悉,GPT-5.4+Thinking即日起面向ChatGPT+Plus、Team和Pro用户开放,替代原有的GPT-5.2+Thinking,后者将作为“遗留模型”保留三个月,至2026年6月5日正式退役;Enterprise和Edu计划用户可通过管理员设置开启早期访问,GPT-5.4+Pro则面向Pro和Enterprise计划用户开放。API端,GPT-4以gpt-5.4名称提供支持,GPT-5.4+Pro以gpt-5.4-pro名称面向有极致性能需求的开发者开放,Codex中的GPT-5.4还支持1M上下文窗口的实验性功能。(纯钧)
相关攻略
步入2026年,跨境电商运营已全面进入“智能决策”时代。以往依赖人工经验、手动分析报表的运营模式,正迅速被具备自主分析能力的“数字大脑”所革新。当前主流的跨境电商数据分析工具,主要分为两大方向:一类是以“实在Agent”为代表的通用型智能执行体,另一类则是如Helium 10(AI模块)、ZonGu
在商业决策中,可靠的数据是市场分析、行业报告与战略制定的基石。信息差即核心竞争力,而获取数据的速度与准确性,往往是决定项目成败的第一道门槛。 高效获取行业数据,主要依托四大核心渠道:官方统计机构、专业咨询公司、互联网公开平台,以及前沿的AI自动化采集工具。掌握这四类路径,您就能构建起高效、立体的信息
当我们探讨“数字政府”建设时,其核心远不止于网站界面优化或审批流程提速。更深层次的价值在于,如何让政府体系如同一位敏锐高效的“经济管家”,主动、精准地服务每一个市场主体。政务智能体(Government AI Agent)的兴起,正将这一理念加速转化为现实。它的根本使命,是彻底扭转以往“企业找政策”
腾讯发布AI设计智能体Ardot并开启公测。该工具可通过自然语言生成UI设计初稿,支持在线编辑并一键转换为前端代码,实现从需求到设计再到代码的全链路自动化。其原生支持多人实时协作,打破传统线性流程,显著提升开发效率。公测期间用户可免费体验核心功能,标志着设计工具向智能生成迈。
5月18日,腾讯云旗下自研的AI设计智能体平台——Ardot正式启动公测。即刻注册,即可免费获得1000 Credits的体验额度,助力您的设计工作流智能化升级。 谈及AI设计工具,许多用户已不陌生。市面上多数工具的运作模式,是依据用户输入的文本描述,由AI生成静态图像。视觉效果固然出色,但实际应用
热门专题
热门推荐
科学家警告,过度依赖人工智能可能削弱创造力与批判性思维,类似GPS损害方向感。研究显示,AI替代需“认知摩擦”的思考过程,或导致认知能力衰退。专家建议应有意识使用AI,使其成为思维“扩音器”而非替代品,例如先自主判断、加深信息处理、主动创意构思,以保护并锻炼大脑独特能力。
谷歌推出云端AI驱动的安卓电脑,重塑PC形态。当前AIPC多依赖云端算力,本地硬件价值受质疑。云电脑与AI结合成为新方向,对网络延迟更宽容。谷歌联合硬件伙伴推进该方案,阿里等云服务商也已布局。传统芯片、终端厂商及微软、苹果正以不同策略应对AIPC趋势。未来竞争将聚焦云端能力、系统重构与生态协。
结论先行:在2026年的商业环境中,企业数字化转型方法的核心不再是单纯的IT系统堆砌,而是“业务流程自动化”与“AI智能化”的深度融合。成功的数字化转型方法论应遵循“小步快跑、场景切入、数据驱动”的原则,利用AI Agent(智能体)技术打通烟囱式系统,实现平滑升级,而非推倒重来。 一、 拒绝假大空
面对琳琅满目的产品设计软件,许多设计师和团队都在追问:究竟哪一款才是最好的选择?然而,真正的答案并非一个简单的软件名称,而是一套基于您具体工作流程的适配逻辑。本文将为您系统解析,如何跳出“最好”的迷思,找到最“对”的那款工具,从而最大化团队效率与产出价值。 核心决策逻辑 首先,我们必须确立一个核心原
跨境电商的售后环节,本质上是客户信任的二次考验。当问题出现时,初次交易建立的信任已然动摇,若处理不当,将直接导致客户永久流失。因此,构建一套真正高效的售后体系,必须实现三大核心目标:响应速度需如本地支付般即时;处理规则需预先设定,实现小额纠纷的自动化化解;最终,所有流程数据必须形成闭环,驱动供应链的





