游乐游手机版
首页/业界动态/文章详情

OpenAI上新GPT-5.4 mini与nano,性能逼近旗舰,成本仅需三分之一

时间:2026-04-22 21:01
OpenAI推出GPT-5 4 mini与nano:为高效AI工作流而生的“轻骑兵” 3月18日,AI领域传来新动态:OpenAI正式发布了GPT-5 4 mini和GPT-5 4 nano两款模型。这可不是简单的迭代,而是精准定位——它们专为那些需要快速、大规模处理AI任务的工作负载设计,目标直指

OpenAI推出GPT-5.4 mini与nano:为高效AI工作流而生的“轻骑兵”

3月18日,AI领域传来新动态:OpenAI正式发布了GPT-5.4 mini和GPT-5.4 nano两款模型。这可不是简单的迭代,而是精准定位——它们专为那些需要快速、大规模处理AI任务的工作负载设计,目标直指低成本、高效率的应用场景。

适用于AI工作流的小型模型

在实际的AI工作流中,选模型往往是个平衡术。你既需要不错的性能,又得追求飞快的响应速度,同时工具调用还得稳定可靠。三者缺一不可。

OpenAI对此的阐述很直接:“这些模型就是为对延迟敏感的工作负载而生。在这些场景里,延迟哪怕慢一点,用户体验就会大打折扣。”想想看,那些需要即时反馈的编程助手、负责执行具体任务的子智能体、实时解读屏幕内容的操作系统,还有能对图像进行快速推理的多模态应用——它们的共同点是什么?就是“等不起”。

所以,OpenAI点出了关键:在这些场景下,最合适的模型往往不是参数最大的那个,而是那个反应快、工具调用稳、在专业任务上不掉链子的选手。

具体来看,相比前代的GPT-5 mini,这次的GPT-5.4 mini在编程、逻辑推理、多模态理解和工具使用上都有提升,而且运行速度直接翻了个倍。至于GPT-5.4 nano,则是更极致的选择:体积更小、速度更快,主打分类、数据提取、排序以及相对简单的编程辅助任务。

性能表现

说到小模型,大家最关心的无非两点:性能到底行不行?性价比高不高?OpenAI也拿出了对比数据,让事实说话:

• 在SWE-bench Pro基准测试中,GPT-5.4 mini拿到了53.40%的分数,而GPT-5 mini是45.69%。

• 在Terminal-Bench 2.0测试中,GPT-5.4 mini达到了59.30%,远超GPT-5 mini的38.20%。

• 在GPQA Diamond测试中,GPT-5.4 mini得分85.48%,已经非常接近全功能版GPT-5.4的93.00%。

• 在OSWorld-Verified测试中,GPT-5.4 mini以70.60%的通过率,显著高于GPT-5 mini的42%。

测试结果透露了一个明确信号:GPT-5.4 mini在多项关键测试中的通过率,已经逼近了它的“老大哥”GPT-5.4,而且执行速度还更快。这意味着,在衡量模型能否正确解决问题的基准上,这个轻量级选手的表现不容小觑。

至于GPT-5.4 nano,其表现则介于两者之间,定位清晰。例如,它在SWE-bench Pro上得分52.39%,在Terminal Bench 2.0上为46.30%。数据虽略低于GPT-5.4 mini,但依然稳稳超过了GPT-5 mini。

子智能体与多模态任务

在智能体的生态系统里,架构设计越来越像现实中的团队协作。一个常见的思路是,让能力强大的AI模型(比如GPT-5.4 Thinking)与速度快、成本低的模型(比如GPT-5.4 mini)搭档工作。这好比一位资深工程师带着几位高效的初级工程师协同作战,既能把握方向,又能快速执行。

在这样的系统里,不同规模的模型可以各司其职:大模型负责顶层规划和复杂思考,小模型则专注执行具体的子任务。GPT-5.4 mini扮演的,正是“子智能体”的角色,比如搜索代码库、审查文件、处理文档这些需要快速响应的活儿。

OpenAI特别提到了它的多模态能力:“GPT-5.4 mini能够处理涉及计算机使用的多模态任务。简单说,它能看懂密集的用户界面截图,并据此辅助完成操作,这对于自动化办公流程来说潜力很大。”

可用性与定价

目前,GPT-5.4 mini已经通过API、Codex和多个版本的ChatGPT提供服务。对于免费版和Go级用户,可以通过附加菜单里的“Thinking”选项来调用它。OpenAI还给出了一个实用的降级策略:“对于其他所有用户,当GPT-5.4 Thinking触发速率限制后,系统会自动将请求切换到GPT-5.4 mini作为备选。”

对于开发者群体,GPT-5.4 mini已经覆盖了Codex应用、命令行界面、集成开发环境扩展以及网页端。这里有个成本亮点:这款mini模型“仅消耗GPT-5.4配额的30%,这意味着开发者能在Codex中以大约三分之一的成本来处理那些相对简单的编程任务。”此外,Codex还能智能地将任务“委托”给GPT-5.4 mini这样的子智能体,让推理强度要求不高的工作在低成本模型上运行,从而优化整体资源分配。

具体的成本对比数据如下:

• GPT-5.4 mini定价为每百万输入Token 0.75美元,每百万输出Token 4.50美元,拥有40万词的上下文窗口。

• GPT-5.4 nano目前仅通过API提供,价格更低,为每百万输入Token 0.20美元,每百万输出Token 1.25美元。

作为参照,全功能的GPT-4定价为每百万输入Token 2.50美元,每百万输出Token 15.00美元。成本差异一目了然。

客户测试反馈

理论数据之外,早期客户的实测反馈或许更有说服力。

科技公司Hebbia专注于开发帮助金融、法律、科研等领域专业人士用自然语言处理海量文档的工具。其首席技术官Aabhas Sharma表示:“在同类模型中,GPT-5.4 mini提供了相当稳定的端到端性能。在我们的评估里,它在部分输出任务和引用召回率上的表现符合预期,同时成本确实降低了。更有意思的是,它的端到端通过率和来源归因能力,在某些测试中甚至超过了体量更大的GPT-5.4模型。”

另一家知名数字工作区Notion(本文正是在Notion中撰写),其AI工程负责人Abhisek Modi也分享了观察:“GPT-5.4 mini在处理定义明确的任务时,精准度很高。在页面编辑这类操作上,它处理复杂格式的能力接近GPT-5.2,但计算消耗却更低。”

Modi还补充了一个关键趋势:“过去,能稳定处理智能体工具调用的,通常只有旗舰模型。但现在,像GPT-5.4 mini和nano这样的小型模型也具备了这种能力。这无疑给用户在Notion上构建自定义智能体时,提供了更灵活、更经济的选择。”

来源:https://www.163.com/tech/article/KO9OA7AV00097U7T.html
上一篇零跑汽车3月交付达50029台 零跑D19将于4月16日上市 下一篇员工未下令,Meta内部智能体却擅自发消息,意外搞出安全漏洞
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
长安汽车明年一季度发布首款车载人形机器人小安
业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略,采用“1+N+X”布局,联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm,体重69kg,移动速度0 8m s,具备40个自由度,续航超2小时。预计明年一季度发布首款车载组件机器人,已在广州车展展示。

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影
业界动态 · 2026-06-29

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影

3月25日,光通信领域迎来又一个里程碑:中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司,成功实现了2 5Pb s 24芯光纤超大容量实时光传输,再次刷新了世界纪录。 这一研究成果不仅入选国际顶级光通信会议OFC(2026)并荣获“高分论文”称号,还受国际权威SCI

美国调查18万辆特斯拉Model3车门应急释放装置易找性
业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查,焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿,不意味着立即召回,但可能引发后续监管措施。

doc个人图书馆停服 创始人称无偿转让失败
业界动态 · 2026-06-29

doc个人图书馆停服 创始人称无偿转让失败

运营长达20年,累计服务8000万用户的360doc个人图书馆,最终还是迎来了谢幕时刻。2026年5月1日,这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失,而是始终未能寻得一位能够安全接管的合适人选。 创始人蔡智在告别信中坦言,近两个月来,他一直在尝试将360doc无偿转

年Q1随身WiFi实测安全靠谱高性价比机型推荐
业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月,艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证,紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后,折射出一个清晰的市场趋势:移动办公、户外出行、宿舍上网等场景的需求正在快速增长,随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿