GPT-5.4 系列上新：更小模型性能逼近旗舰，成本仅三分之一

时间：2026-03-25 19:36

3月18日消息，今日，OpenAI推出GPT-5 4 mini和GPT-5 4 nano模型。这两款模型针对快速、大批量AI工作负载设计，属于低成本的大语言模型产品。适用于AI工作流的小型模型对许多

3月18日消息，今日，OpenAI推出GPT-5.4 mini和GPT-5.4 nano模型。这两款模型针对快速、大批量AI工作负载设计，属于低成本的大语言模型产品。

适用于AI工作流的小型模型

对许多AI工作流而言，高效的模型通常需要在性能、响应速度及工具调用能力之间取得平衡。

OpenAI表示：“这些模型专为对延迟敏感的工作负载设计，在此类场景中，延迟直接影响产品体验。例如：需要快速响应的编程助手、执行辅助任务的子智能体 (Subagents)、捕捉并解读屏幕内容的计算机操作系统，以及能对图像进行实时推理的多模态应用。”

该公司指出：“在这些应用场景中，适用的模型往往并非参数规模最大的，而是响应迅速、能稳定调用工具，且在专业任务中表现正常的模型。”

相较于GPT-5 mini，GPT-5.4mini在编程、推理、多模态理解及工具使用方面有所提升，运行速度约为前者的两倍。

GPT-5.4 nano则是体积更小、速度更快的版本，主要针对分类、数据提取、排序及较简单的编程辅助任务。

性能表现

在评估体量较小、成本较低的模型时，性能和性价比是主要参考指标。OpenAI列举了新模型相较于旧模型的测试数据：

• 在SWE-bench Pro基准测试中，GPT-5.4 mini得分为53.40%，而GPT-5 mini为45.69%。

• 在Terminal-Bench 2.0测试中，GPT-5.4 mini达到59.30%，而GPT-5 mini为38.20%。

• 在GPQA Diamond测试中，GPT-5.4 mini得分为85.48%，接近GPT-5.4的93.00%。

•OSWorld-Verified结果显示，GPT-5.4 mini得分为70.60%，高于GPT-5 mini的42%。

测试结果显示，GPT-5.4 mini的通过率接近GPT-5.4的水平，且执行速度更快。在衡量模型正确解决问题能力的基准测试中，轻量级的GPT-5.4 mini与全功能版GPT-5.4表现相近。

GPT-5.4 nano的表现则介于上述两者之间。例如，其在SWE-bench Pro上得分为52.39%，在Terminal Bench 2.0上为46.30%。数据低于GPT-5.4 mini，但高于GPT-5 mini。

子智能体与多模态任务

在智能体生态系统中，AI的架构可以模拟现实中的协作模式。例如，将能力较强的AI模型（如GPT-5.4 Thinking）与速度较快、低成本的模型（如GPT-5.4 mini）结合使用，类似于资深工程师带领初级工程师协同工作。

智能体系统可组合不同规模的模型，由大模型负责任务规划，小模型负责执行子任务。在此语境下，GPT-5.4 mini可承担子智能体的工作，例如搜索代码库、审查文件及处理文档。

OpenAI表示：“GPT-5.4mini具备多模态任务处理能力，适用于涉及计算机使用的任务。该模型能解读密集型用户界面的截图，以辅助完成计算机操作任务。”

可用性与定价

GPT-5.4 mini现已通过API、Codex和ChatGPT多个版本提供。免费版和Go级用户可通过附加菜单中的“Thinking”选项调用GPT-5.4 mini。OpenAI表示：“对于其他所有用户，GPT-5.4 mini将作为GPT-5.4 Thinking 触发速率限制后的备选模型。”

该公司表示，针对程序员，GPT-5.4 mini 已覆盖Codex 应用、命令行界面 (CLI)、集成开发环境 (IDE) 扩展及网页端。OpenAI 指出，这款mini 模型“仅消耗GPT-5.4配额的30%，让开发者能在Codex 中以约三分之一的成本处理简单编程任务”。此外，Codex 还可将任务委托给GPT-5.4 mini 子智能体，从而让推理强度较低的工作在低成本模型上运行。

成本对比数据如下：

• GPT-5.4 mini 定价为每百万输入Token 0.75美元，每百万输出Token 4.50美元，拥有40万词的上下文窗口 (Context Window)。

• GPT-5.4 nano 仅通过 API 提供，价格为每百万输入 Token 0.20美元，每百万输出 Token 1.25美元。

相比之下，GPT-5.4的定价为每百万输入 Token 2.50美元，每百万输出 Token 15.00美元。

客户测试反馈

科技公司 Hebbia 致力于开发帮助专业人士利用自然语言处理文档库的工具。其产品主要应用于金融、法律和科研等需要同时分析多份文档的领域。

Hebbia 首席技术官 AabhasSharma 表示：“在同类模型中，GPT-5.4 mini 提供了较为稳定的端到端性能。在我们的评估中，它在部分输出任务和引用召回率上的表现达到了预期，且成本有所降低。此外，其端到端通过率和来源归因能力在部分测试中高于体量更大的 GPT-5.4模型。”

数字工作区 Notion 是一款常用的生产力工具（本文即在 Notion 中撰写）。该软件为结构化和非结构化数据提供了统一平台，用户可利用其构建零代码的信息管理微应用，用于追踪文章创作、内部项目等。

Notion AI 工程负责人Abhisek Modi 表示：“GPT-5.4 mini 在处理定义明确的任务时，表现出较高的精准度。在页面编辑方面，它处理复杂格式的能力接近 GPT-5.2，而算力消耗相对较低。”

Modi 补充道：“此前，通常只有旗舰模型才能稳定处理智能体工具调用 (Agentic Tool Calling)。目前，像 GPT-5.4 mini 和 nano 这样的小型模型也具备了相关能力。这将便于用户在 Notion 上构建自定义智能体 (Custom Agents) 时选择合适的模型。”（易句）

来源：https://www.163.com/tech/article/KO9OA7AV00097U7T.html

上一篇传英伟达Groq芯片5月入华：AI推理市场迎变局 下一篇上海加快培养FDE人才：攻克AI落地最后一公里难题

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略，采用“1+N+X”布局，联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm，体重69kg，移动速度0 8m s，具备40个自由度，续航超2小时。预计明年一季度发布首款车载组件机器人，已在广州车展展示。

业界动态 · 2026-06-29

中国信科刷新光通信世界纪录每秒可下载1.4万部4K电影

3月25日，光通信领域迎来又一个里程碑：中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司，成功实现了2 5Pb s 24芯光纤超大容量实时光传输，再次刷新了世界纪录。这一研究成果不仅入选国际顶级光通信会议OFC（2026）并荣获“高分论文”称号，还受国际权威SCI

业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查，焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿，不意味着立即召回，但可能引发后续监管措施。

业界动态 · 2026-06-29

doc个人图书馆停服创始人称无偿转让失败

运营长达20年，累计服务8000万用户的360doc个人图书馆，最终还是迎来了谢幕时刻。2026年5月1日，这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失，而是始终未能寻得一位能够安全接管的合适人选。创始人蔡智在告别信中坦言，近两个月来，他一直在尝试将360doc无偿转

业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月，艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证，紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后，折射出一个清晰的市场趋势：移动办公、户外出行、宿舍上网等场景的需求正在快速增长，随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿