OpenAI发布三款语音模型AI语音交互迎来新突破

时间：2026-05-11 21:17

昨天凌晨，OpenAI正式揭晓了三款全新的音频模型：GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。官方将其定位为能让开发者构建具备“实时推理、翻译和转写”能力的语音产品。目前，这三款模型已面向开发者开放测试。这次更新的核心，在

昨天凌晨，OpenAI正式揭晓了三款全新的音频模型：GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。官方将其定位为能让开发者构建具备“实时推理、翻译和转写”能力的语音产品。目前，这三款模型已面向开发者开放测试。

这次更新的核心，在于三款模型清晰的功能分工。

GPT-Realtime-2瞄准实时语音助手场景，它是OpenAI首个宣称具备“GPT-5级推理”能力的语音模型，旨在处理复杂请求、调用工具、应对中途打断，并在更长的语音会话中维持连贯的上下文。

GPT-Realtime-Translate专攻实时语音翻译，支持超过70种输入语言和13种输出语言。

GPT-Realtime-Whisper则专注于实时语音转写，能在人说话的同时生成文本，适用于字幕、会议记录等工作流更新场景。

价格体系也随之公布。GPT-Realtime-2采用按token计费，音频输入起价为每百万token 32美元，输出为64美元；GPT-Realtime-Translate和GPT-Realtime-Whisper均按分钟计费，价格分别为每分钟0.034美元和0.017美元。

根据相关报道，包括Zillow、Priceline和德国电信在内的多家知名企业，已开始测试这些新模型。

此次发布，可以看作是OpenAI过去一年语音战略的自然延伸。回顾一下时间线：2024年，OpenAI首先将ChatGPT高级语音模式背后的低延迟能力开放给开发者；2025年8月，首个正式版GPT-Realtime问世，开始面向生产级语音助手；今年2月，GPT-Realtime-1.5成为上一代主力模型。而如今2.0版本的三大模型矩阵，标志着Realtime产品线正从功能体验，全面迈向企业级API的版本升级。

从对话走向执行

先看此次的旗舰模型GPT-Realtime-2。根据OpenAI的描述，这是第一款具备“GPT-5级推理”的语音模型，专为处理复杂请求、调用工具、应对中断以及维持长会话上下文而设计。

这些能力，恰恰对应了语音助手落地时最棘手的几个问题。

一个关键提升是将上下文窗口从32K扩展到了128K。这个参数对于长会话场景意义重大。试想一下，用户咨询一套房产的详细信息，或者处理复杂的机票改签，这类对话往往包含大量前置条件和多轮确认。更大的上下文窗口，意味着模型能在更长的实时对话中，牢牢记住之前提到的限制、偏好和业务细节。

“工具调用”是这次更新的另一个关键词。Realtime API允许开发者构建能够调用外部工具的语音体验。应用可以保持实时会话连接，连续发送音频，接收模型事件，更新会话状态，并将外部系统返回的结果反馈给模型，从而形成闭环。美国房地产平台Zillow就是官方公布的首批企业案例之一。OpenAI提到，Zillow正在利用GPT-Realtime-2构建能够理解住房条件并安排看房的语音助手。Zillow方面表示，在最严苛的对抗性测试中，经过提示词优化后，电话任务的成功率从69%提升到了95%，并且在涉及“公平住房”的合规性表现上也更为稳定。

这里提到的“公平住房”，指的是美国住房交易中反歧视的合规要求，平台不得基于种族、宗教、性别等因素进行区别对待。从“能对话”进化到“会办事”，这或许是GPT-Realtime-2给行业带来的最大冲击。

Booking旗下知名旅游平台Priceline，则代表了另一类典型落地场景。据了解，Priceline也在测试GPT-Realtime-2系列。旅游预订链条长且复杂，用户可能需要查询航班、预订酒店、调整日期、处理延误、比价，甚至在境外需要翻译。如果语音助手能稳定接入后台系统，就有机会将服务从简单的“问答”推进到真正的“办事”。

OpenAI提到的另一个已知客户是德国电信。电信行业本身拥有大规模客服坐席、复杂的套餐业务、故障处理、多语言服务和账单解释需求，无疑是语音模型落地的天然沃土。

GPT-Realtime-2还有一个值得关注的细节：可调节的推理强度。OpenAI的开发者文档指出，该模型将推理能力引入了语音到语音的工作流。在多数生产场景中，开发者可以先使用较低的推理强度，优先保障通话中的响应速度；当遇到更复杂的客服、预订或排障任务时，再提高推理强度，用更多的计算资源换取更周全的判断。

这个设计非常务实。语音交互比文字聊天更惧怕停顿，用户在电话中等待一两秒，卡顿感就会非常明显。推理越强，通常延迟压力也越大。如何在性能与响应速度之间取得平衡，是开发者必须面对的取舍。

官方也提供了一些基准测试数据。OpenAI称，在衡量音频输入、多轮对话、复杂指令和上下文整合能力的Big Bench Audio和Audio MultiChallenge测试集上，GPT-Realtime-2的表现分别比GPT-Realtime-1.5高出15.2%和13.8%。

第二款模型GPT-Realtime-Translate，主打实时语音到语音的翻译。按照开发者示例，它适用于广播、直播、电话和视频对话等场景，能够自动识别输入语言并输出翻译后的语音和文本，开发者只需设定目标语言。该模型支持70多种输入语言到13种输出语言，并能在说话人讲话时跟上节奏。传统语音翻译往往要求说话人停顿，等一句话结束后再翻译，而GPT-Realtime-Translate则更接近连续口译的模式。

OpenAI将其应用场景分为两类：一类是广播式翻译，如直播、网络研讨会、大型会议演讲；另一类是对话式翻译，如呼叫中心、视频通话。这两类基本覆盖了企业最愿意付费的跨语言场景：客服、教育、国际会议、内容平台与跨境销售。

第三款模型GPT-Realtime-Whisper，强调实时流式转写。它能在说话时同步生成字幕、会议记录或工作流更新。相比前两者，Whisper的商业门槛最低，价格仅为每分钟0.017美元。

将三款模型放在一起看，OpenAI已经将实时音频赛道拆解为三个明确的入口：GPT-Realtime-2处理智能语音助手，GPT-Realtime-Translate攻克跨语言沟通，GPT-Realtime-Whisper解决实时文本化。三者在定价、延迟要求和客户场景上各有侧重，其战略意图很明显：在差异化的路径上，试图全面覆盖语音AI市场。

TTS市场：卷完“音质”，再卷“实时”

这次发布传递出一个清晰的商业信号：OpenAI正将其语音AI能力，全面推向API市场和企业工作流。

除了官方点名的Zillow、Priceline和德国电信，更多公司正在接入这批新模型。例如，视频平台Vimeo、企业知识管理工具Glean、客服软件公司Intercom，以及专注于企业语音助手的BolnaAI，都出现在目前已披露的相关案例中。这意味着，GPT-Realtime系列已成为OpenAI一个成熟的商业化产品线，客户覆盖了内容平台、企业办公、客服系统和语音助手创业公司等多元化的开发者群体。

OpenAI所展示的，是一幅AI在真实业务中运作的图景：在通话中理解需求、调用系统、翻译语言，并将语音交互无缝接入企业后台。而这一切，正发生在语音AI市场持续升温的周期内。

过去两年，语音AI赛道备受瞩目的公司之一是ElevenLabs。这家2022年成立的公司，最初凭借高度拟真的AI配音、声音克隆和多语言本地化能力脱颖而出，随后又将产品线延伸至企业语音助手。今年2月，ElevenLabs宣布完成5亿美元D轮融资，估值达到110亿美元，较2025年1月的33亿美元大幅跃升。公司表示，资金将用于全球扩张，并持续投入情感化对话模型、配音、转写和AI语音助手等方向。

更近的动态显示，ElevenLabs的年化经常性收入已超过5亿美元，其D轮融资方阵容豪华，既包括贝莱德、惠灵顿管理等大型机构，也包括英伟达、赛富时创投、德国电信等产业资本，甚至吸引了演员Jamie Foxx、Eva Longoria以及《鱿鱼游戏》创作者黄东赫等个人投资者。

市场的需求正在急剧变化。语音AI早已不再是创作者的配音工具那么简单。影视、广告、游戏、教育、企业培训、无障碍服务、内容出海和电话助手等领域，都在渴求更自然、更经济、更可控的机器语音。

Deepgram代表了另一种路线。这家公司长期深耕语音识别基础设施，客户多来自联络中心、会议、销售、医疗、金融等高频率语音场景。近年来，Deepgram开始补全文本转语音和语音助手接口，试图打通语音模型的“办事”能力。其Aura-2文本转语音模型面向实时应用，流式延迟低于200毫秒，并能更自然地朗读地址、电话号码等结构化内容。同时，它将语音识别、合成、实时情绪分析、话题检测和摘要能力打包，提供给联络中心等企业场景。

Cartesia则主打低延迟和实时交互。这家由前斯坦福AI实验室成员创办的公司，以状态空间模型为技术标签，追求更快、更低成本的实时多模态模型。其核心语音产品Sonic系列，主打低延迟文本转语音。根据文档，Sonic 3是一个流式模型，强调高自然度、精准跟随文本和低延迟，支持42种语言，并可控制音量、语速和情绪。在Cartesia官网上，90毫秒的低延迟被作为实时对话体验的核心卖点。

这些公司的竞争，共同推动了TTS（文本转语音）市场的演进。早期的竞争焦点是“像不像真人”；随后，战火蔓延到多语言覆盖、声音克隆、情绪表达、版权和效率；而现在，语音助手将标准再次拉高。企业需要的不仅仅是一个好听的声音，而是一套完整链路：精准的语音识别、极低的首字延迟、能理解上下文的大模型、稳定的工具调用、自然的语音合成、流畅的翻译，以及能融入后续工作流的转写能力。

一些行业资料反映了这一趋势。Deepgram在一篇对比文章中提到，面向语音助手的文本转语音，已将“首段语音生成低于100毫秒”视为新的性能基线之一。

在全行业竞逐“实时”能力的背景下，OpenAI最大的优势或许在于其完整的模型栈。开发者可以在同一个平台上调用从语音识别、理解、推理到合成、翻译的整套能力，减少了对接多个供应商带来的延迟、集成和运维成本。对企业而言，统一平台也意味着更便捷的权限管理、日志留存、数据策略和安全审查。

当然，OpenAI想要通吃企业语音市场，也并非易事。ElevenLabs估值已达110亿美元，年化收入超5亿美元；Deepgram在今年1月完成1.3亿美元融资，估值13亿美元，服务超1300家客户；Cartesia也在2025年完成6400万美元A轮融资，其Sonic模型据称已有上万客户使用，并以90毫秒延迟和42种语言作为主打。OpenAI虽有模型栈优势，但语音市场早已强手如林。