首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
OpenAI上新GPT-5.4 mini与nano,性能逼近旗舰,成本仅需三分之一

OpenAI上新GPT-5.4 mini与nano,性能逼近旗舰,成本仅需三分之一

热心网友
13
转载
2026-04-22

OpenAI推出GPT-5.4 mini与nano:为高效AI工作流而生的“轻骑兵”

3月18日,AI领域传来新动态:OpenAI正式发布了GPT-5.4 mini和GPT-5.4 nano两款模型。这可不是简单的迭代,而是精准定位——它们专为那些需要快速、大规模处理AI任务的工作负载设计,目标直指低成本、高效率的应用场景。

适用于AI工作流的小型模型

在实际的AI工作流中,选模型往往是个平衡术。你既需要不错的性能,又得追求飞快的响应速度,同时工具调用还得稳定可靠。三者缺一不可。

OpenAI对此的阐述很直接:“这些模型就是为对延迟敏感的工作负载而生。在这些场景里,延迟哪怕慢一点,用户体验就会大打折扣。”想想看,那些需要即时反馈的编程助手、负责执行具体任务的子智能体、实时解读屏幕内容的操作系统,还有能对图像进行快速推理的多模态应用——它们的共同点是什么?就是“等不起”。

所以,OpenAI点出了关键:在这些场景下,最合适的模型往往不是参数最大的那个,而是那个反应快、工具调用稳、在专业任务上不掉链子的选手。

具体来看,相比前代的GPT-5 mini,这次的GPT-5.4 mini在编程、逻辑推理、多模态理解和工具使用上都有提升,而且运行速度直接翻了个倍。至于GPT-5.4 nano,则是更极致的选择:体积更小、速度更快,主打分类、数据提取、排序以及相对简单的编程辅助任务。

性能表现

说到小模型,大家最关心的无非两点:性能到底行不行?性价比高不高?OpenAI也拿出了对比数据,让事实说话:

• 在SWE-bench Pro基准测试中,GPT-5.4 mini拿到了53.40%的分数,而GPT-5 mini是45.69%。

• 在Terminal-Bench 2.0测试中,GPT-5.4 mini达到了59.30%,远超GPT-5 mini的38.20%。

• 在GPQA Diamond测试中,GPT-5.4 mini得分85.48%,已经非常接近全功能版GPT-5.4的93.00%。

• 在OSWorld-Verified测试中,GPT-5.4 mini以70.60%的通过率,显著高于GPT-5 mini的42%。

测试结果透露了一个明确信号:GPT-5.4 mini在多项关键测试中的通过率,已经逼近了它的“老大哥”GPT-5.4,而且执行速度还更快。这意味着,在衡量模型能否正确解决问题的基准上,这个轻量级选手的表现不容小觑。

至于GPT-5.4 nano,其表现则介于两者之间,定位清晰。例如,它在SWE-bench Pro上得分52.39%,在Terminal Bench 2.0上为46.30%。数据虽略低于GPT-5.4 mini,但依然稳稳超过了GPT-5 mini。

子智能体与多模态任务

在智能体的生态系统里,架构设计越来越像现实中的团队协作。一个常见的思路是,让能力强大的AI模型(比如GPT-5.4 Thinking)与速度快、成本低的模型(比如GPT-5.4 mini)搭档工作。这好比一位资深工程师带着几位高效的初级工程师协同作战,既能把握方向,又能快速执行。

在这样的系统里,不同规模的模型可以各司其职:大模型负责顶层规划和复杂思考,小模型则专注执行具体的子任务。GPT-5.4 mini扮演的,正是“子智能体”的角色,比如搜索代码库、审查文件、处理文档这些需要快速响应的活儿。

OpenAI特别提到了它的多模态能力:“GPT-5.4 mini能够处理涉及计算机使用的多模态任务。简单说,它能看懂密集的用户界面截图,并据此辅助完成操作,这对于自动化办公流程来说潜力很大。”

可用性与定价

目前,GPT-5.4 mini已经通过API、Codex和多个版本的ChatGPT提供服务。对于免费版和Go级用户,可以通过附加菜单里的“Thinking”选项来调用它。OpenAI还给出了一个实用的降级策略:“对于其他所有用户,当GPT-5.4 Thinking触发速率限制后,系统会自动将请求切换到GPT-5.4 mini作为备选。”

对于开发者群体,GPT-5.4 mini已经覆盖了Codex应用、命令行界面、集成开发环境扩展以及网页端。这里有个成本亮点:这款mini模型“仅消耗GPT-5.4配额的30%,这意味着开发者能在Codex中以大约三分之一的成本来处理那些相对简单的编程任务。”此外,Codex还能智能地将任务“委托”给GPT-5.4 mini这样的子智能体,让推理强度要求不高的工作在低成本模型上运行,从而优化整体资源分配。

具体的成本对比数据如下:

• GPT-5.4 mini定价为每百万输入Token 0.75美元,每百万输出Token 4.50美元,拥有40万词的上下文窗口。

• GPT-5.4 nano目前仅通过API提供,价格更低,为每百万输入Token 0.20美元,每百万输出Token 1.25美元。

作为参照,全功能的GPT-4定价为每百万输入Token 2.50美元,每百万输出Token 15.00美元。成本差异一目了然。

客户测试反馈

理论数据之外,早期客户的实测反馈或许更有说服力。

科技公司Hebbia专注于开发帮助金融、法律、科研等领域专业人士用自然语言处理海量文档的工具。其首席技术官Aabhas Sharma表示:“在同类模型中,GPT-5.4 mini提供了相当稳定的端到端性能。在我们的评估里,它在部分输出任务和引用召回率上的表现符合预期,同时成本确实降低了。更有意思的是,它的端到端通过率和来源归因能力,在某些测试中甚至超过了体量更大的GPT-5.4模型。”

另一家知名数字工作区Notion(本文正是在Notion中撰写),其AI工程负责人Abhisek Modi也分享了观察:“GPT-5.4 mini在处理定义明确的任务时,精准度很高。在页面编辑这类操作上,它处理复杂格式的能力接近GPT-5.2,但计算消耗却更低。”

Modi还补充了一个关键趋势:“过去,能稳定处理智能体工具调用的,通常只有旗舰模型。但现在,像GPT-5.4 mini和nano这样的小型模型也具备了这种能力。这无疑给用户在Notion上构建自定义智能体时,提供了更灵活、更经济的选择。”

来源:https://www.163.com/tech/article/KO9OA7AV00097U7T.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

海信618电视销量夺冠 Mini LED技术加速普及
业界动态
海信618电视销量夺冠 Mini LED技术加速普及

2026年618大促的序幕刚刚拉开,初期战报已经透露出一些耐人寻味的信号。截至5月21日,海信电视在京东平板电视累计销售竞速榜上拔得头筹,其RGB-Mini LED爆款王——海信小墨E5S Pro,更是同时拿下了天猫平板电视和抖音大家电的5 20单品销冠。 这并非偶然。奥维云网的全渠道监测数据给出了

热心网友
05.23
Vidda发现X2027发布 万元内MiniLED电视黑科技全解析
业界动态
Vidda发现X2027发布 万元内MiniLED电视黑科技全解析

距离4月28日Vidda发现X 2027新品发布会仅剩不到一周,这款被誉为“万元内音画越级旗舰Mini LED性能卷王”的电视,其京东预售页面已提前揭秘多项核心黑科技,引发了广大影音发烧友与游戏玩家的热烈期待。在竞争激烈的万元内Mini LED电视市场,Vidda此次将高分区高亮度、顶级低反屏、独立

热心网友
05.22
MiniMax订阅计划全解析:Token套餐与模型权限详解
AI资讯
MiniMax订阅计划全解析:Token套餐与模型权限详解

摘要由实在Agent通过智能技术生成。此内容由AI根据文章内容自动生成,并已由人工审核。 MiniMax近期推出的Token Plan全模态统一订阅计划,正在悄然改变AI算力的消费模式。它不仅保留了顶级的M2 7代码推理能力,更将视频、音乐及图像生成额度免费打包,旨在打破跨模态应用的成本壁垒,堪称当

热心网友
05.22
MiniMax官网入口与开放平台大模型使用指南
AI资讯
MiniMax官网入口与开放平台大模型使用指南

在人工智能技术加速商业化的当下,如何安全、高效地集成顶尖大模型能力,已成为众多企业与开发者实现智能化升级的核心关切。作为国内通用人工智能领域的领军者,MiniMax依托其全栈自研的全模态大模型底座,为千行百业的数字化转型提供了强大且可靠的技术引擎。本文将系统梳理接入MiniMax云端智能服务的完整路

热心网友
05.22
Minimax提示词失效解决方法 智能体指令遵循能力提升指南
AI资讯
Minimax提示词失效解决方法 智能体指令遵循能力提升指南

智能体指令执行偏差常因提示词未能有效激活其遵循机制。可通过引入结构化执行标记、前置完整性校验、启用分步响应协议、嵌入负向禁令以及绑定指令输出指纹等方法,强制模型精确遵循指令,确保执行过程的可靠与透明。

热心网友
05.22

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

企业网络安全等级保护合规指南:龙虾养殖业如何落地实施
AI资讯
企业网络安全等级保护合规指南:龙虾养殖业如何落地实施

摘要由实在Agent通过智能技术生成。此内容由AI根据文章内容自动生成,并已由人工审核。 随着企业数字化转型进入智能体(Agent)驱动的新阶段,如何平衡AI创新与安全合规成为关键挑战。尤其在《网络安全等级保护基本要求》(等保2 0)的严格框架下,企业级智能体的部署必须同时满足效率提升与合规保障的双

热心网友
05.23
外贸业务员年终总结PPT制作指南 AI高效提升总结效果
AI教程
外贸业务员年终总结PPT制作指南 AI高效提升总结效果

使用情景 对于外贸从业者来说,年终总结绝非简单的例行汇报。它是一次至关重要的年度复盘与战略规划,既要系统梳理过去一年的业绩成果与经验得失,也要为来年的市场开拓与业务增长指明清晰路径。在全球贸易竞争白热化的今天,一份逻辑严谨、数据详实、洞察深刻的总结报告,不仅是个人专业能力的集中体现,更是赢得管理层支

热心网友
05.23
WPS AI一键生成年度安全工作总结PPT高效制作专业汇报
AI教程
WPS AI一键生成年度安全工作总结PPT高效制作专业汇报

使用情景 又到年末了,年度安全工作总结是每个团队都绕不开的环节。这份总结的价值,远不止于一份简单的回顾。它更像是一份“体检报告”,清晰地告诉你过去一年安全工作的“健康状况”——哪里做得好,哪里还有隐患,从而为来年的精准施策打下坚实的基础。 不过,说起写总结、做PPT,不少人就开始头疼了:内容怎么组织

热心网友
05.23
ZEC价格暴涨520%后还能买吗 深度解析Zcash未来走势与投资潜力
web3.0
ZEC价格暴涨520%后还能买吗 深度解析Zcash未来走势与投资潜力

Zcash (ZEC) 月度暴涨520%:深度解析后市行情与关键点位 近期,隐私币龙头Zcash (ZEC) 上演了一场令人瞩目的行情,月度涨幅高达520%,价格一度逼近300美元,创下自2021年12月以来的新高。在加密市场整体承压的背景下,ZEC的逆势狂飙吸引了全球投资者的目光。本文将结合技术分

热心网友
05.23
电商售后数据自动汇总分析流程与智能化方案详解
AI资讯
电商售后数据自动汇总分析流程与智能化方案详解

在存量竞争的时代,电商售后数据早已超越了“成本中心”的单一角色,它正成为洞察产品质量、优化物流链路、提升用户忠诚度的核心战略资产。然而,现实往往骨感:多平台、多店铺、多套ERP系统并存,数据散落一地。靠人工手动汇总?不仅耗时费力,更关键的是,你永远无法实现真正的实时预警与敏捷响应。那么,电商售后数据

热心网友
05.23