OpenAI 正式发布 GPT-4o,这可以说是人工智能领域的又一次标志性跨越。从命名就能感受到它的野心——"o"代表"omni",全知全能的缩写,意味着它能跨音频、视觉、文本进行实时推理。上一代模型还在为单一模态的优化绞尽脑汁,GPT-4o 直接把多模态交互的门槛拉低了一个层级。
GPT-4o 简介
GPT-4o 是 OpenAI 目前最均衡的多模态模型。它能够同时处理音频、视觉和文本三种信息形态,并且是在实时层面完成的——不是先转译再合成,而是真正意义上的"边听边看边理解"。相比 GPT-3.5 和 GPT-4,这次升级的核心关键词是:跨模态融合、响应速度、以及多语言能力的显著提升。

你可以把它理解成一个人机交互的操作系统升级:从过去"打字-回复"的文本对话,切换到"看-听-说"的自然交流。聊天机器人只是最基础的用法,多模态内容生成和实时理解才是真正让人兴奋的部分。
GPT-4o 中的开创性功能
- 多模态推理:跨音频、视觉和文本同时推理,不是简单的拼接,而是真正意义上的"理解不同格式并统一输出"。
- 实时交互:音频输入响应时间低至 232 毫秒。什么概念?人类对话的停顿通常就在 200~300 毫秒之间。这意味着你用语音和它聊天时,几乎感觉不到延迟。
- 性能提升:在英语和代码任务上持平甚至超越 GPT-4 Turbo,而在非英语文本的处理上进步尤其明显。多语言能力、音频识别、视觉理解都刷新了评测基准。
- 增强的视觉和音频理解:图像识别、语音识别、语音翻译——这些原本需要单独模型拼凑的功能,现在一个模型包揽,而且效果更稳。
- 端到端训练:不再依赖多级管道(比如先把音频转文本,再处理文本)。GPT-4o 跨文本、视觉、音频模式统一训练,保留更多原始信息,整体性能自然更优。
- 效率提升:每层都做了优化,处理速度更快,计算成本更低——对开发者来说,这比单纯的"能力更强"更实在。
- 分词效率:采用新分词器,不同语言的文本处理所需 token 数量减少,支持的语言范围更广。
- 内置安全措施:跨模态安全机制,从训练数据过滤到训练后行为校准,目的就是降低 AI 生成内容的风险。

GPT-4o 价格
OpenAI 这次在定价上诚意不小。GPT-4o 直接纳入了 ChatGPT 免费套餐,Plus 用户的消息限额提升至原来的 5 倍。API 方面,相比 GPT-4 Turbo,GPT-4o 速度提升了 2 倍,价格直接砍半,速率限制提升 5 倍。对于企业和开发者来说,这几乎是"加量还降价"的操作。
如何在 ChatGPT 中访问 GPT-4o
不同档位的用户,访问方式略有差异。下面按套餐分层来看。
ChatGPT 免费版:探索基础知识
免费用户默认拥有 GPT-4o 的访问权限,但消息数量有上限(随当前使用情况和需求动态调整)。如果 GPT-4o 不可用,系统会自动回退到 GPT-3.5。除此之外,免费版还能使用数据分析、文件上传、浏览以及各种 GPT 模型等基础功能——作为入门体验,足够用了。
需要留意的是,截至 5 月 15 日,ChatGPT 网页端还尚未开放 GPT-4o 的选项,需要等待后续更新。
ChatGPT Plus 版:解锁高级功能
Plus 和 Team 订阅用户可以同时访问 GPT-4 和 GPT-4o,消息上限比免费版大得多。具体来说,截至 2024 年 5 月 13 日,Plus 用户每 3 小时可用 GPT-4o 发送最多 80 条消息,而 GPT-4 则是 40 条。高峰时段可能会调整限额,但整体体验已经拉开明显差距。

Team 工作区的消息上限比 Plus 更高,适合协作项目的大量需求。
ChatGPT Enterprise:为大型企业量身定制的解决方案
企业级客户目前还需要等待 GPT-4o 的开放,但计划已明确:提供对 GPT-4o 和 GPT-4 的无限制、高速访问。企业账户中的新对话默认使用 GPT-4o,同时享有企业级安全隐私、更长上下文窗口、无限制的高级工具等。

更详细的内容可以查阅 OpenAI 官方说明。
通过 Apifox 使用 GPT-4o API
如果你是需要集成 GPT-4o API 的开发者,Apifox 是一个涵盖设计、测试、模拟和文档管理的综合平台。用它来对接 GPT-4o API,能让整个工作流更顺畅。

总结
GPT-4o 称得上是 AI 创新的一个重要里程碑。它在音频、视觉、文本三个维度上实现了前所未有的融合,同时兼顾了性能、成本和安全性。随着后续研究和应用的深入,它很可能成为塑造人机交互新范式的关键一脚。
