OpenAI发布三款语音模型AI语音交互迎来新突破
昨天凌晨,OpenAI正式揭晓了三款全新的音频模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。官方将其定位为能让开发者构建具备“实时推理、翻译和转写”能力的语音产品。目前,这三款模型已面向开发者开放测试。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这次更新的核心,在于三款模型清晰的功能分工。
GPT-Realtime-2瞄准实时语音助手场景,它是OpenAI首个宣称具备“GPT-5级推理”能力的语音模型,旨在处理复杂请求、调用工具、应对中途打断,并在更长的语音会话中维持连贯的上下文。
GPT-Realtime-Translate专攻实时语音翻译,支持超过70种输入语言和13种输出语言。
GPT-Realtime-Whisper则专注于实时语音转写,能在人说话的同时生成文本,适用于字幕、会议记录等工作流更新场景。
价格体系也随之公布。GPT-Realtime-2采用按token计费,音频输入起价为每百万token 32美元,输出为64美元;GPT-Realtime-Translate和GPT-Realtime-Whisper均按分钟计费,价格分别为每分钟0.034美元和0.017美元。
根据相关报道,包括Zillow、Priceline和德国电信在内的多家知名企业,已开始测试这些新模型。
此次发布,可以看作是OpenAI过去一年语音战略的自然延伸。回顾一下时间线:2024年,OpenAI首先将ChatGPT高级语音模式背后的低延迟能力开放给开发者;2025年8月,首个正式版GPT-Realtime问世,开始面向生产级语音助手;今年2月,GPT-Realtime-1.5成为上一代主力模型。而如今2.0版本的三大模型矩阵,标志着Realtime产品线正从功能体验,全面迈向企业级API的版本升级。

从对话走向执行
先看此次的旗舰模型GPT-Realtime-2。根据OpenAI的描述,这是第一款具备“GPT-5级推理”的语音模型,专为处理复杂请求、调用工具、应对中断以及维持长会话上下文而设计。
这些能力,恰恰对应了语音助手落地时最棘手的几个问题。
一个关键提升是将上下文窗口从32K扩展到了128K。这个参数对于长会话场景意义重大。试想一下,用户咨询一套房产的详细信息,或者处理复杂的机票改签,这类对话往往包含大量前置条件和多轮确认。更大的上下文窗口,意味着模型能在更长的实时对话中,牢牢记住之前提到的限制、偏好和业务细节。
“工具调用”是这次更新的另一个关键词。Realtime API允许开发者构建能够调用外部工具的语音体验。应用可以保持实时会话连接,连续发送音频,接收模型事件,更新会话状态,并将外部系统返回的结果反馈给模型,从而形成闭环。美国房地产平台Zillow就是官方公布的首批企业案例之一。OpenAI提到,Zillow正在利用GPT-Realtime-2构建能够理解住房条件并安排看房的语音助手。Zillow方面表示,在最严苛的对抗性测试中,经过提示词优化后,电话任务的成功率从69%提升到了95%,并且在涉及“公平住房”的合规性表现上也更为稳定。
这里提到的“公平住房”,指的是美国住房交易中反歧视的合规要求,平台不得基于种族、宗教、性别等因素进行区别对待。从“能对话”进化到“会办事”,这或许是GPT-Realtime-2给行业带来的最大冲击。
Booking旗下知名旅游平台Priceline,则代表了另一类典型落地场景。据了解,Priceline也在测试GPT-Realtime-2系列。旅游预订链条长且复杂,用户可能需要查询航班、预订酒店、调整日期、处理延误、比价,甚至在境外需要翻译。如果语音助手能稳定接入后台系统,就有机会将服务从简单的“问答”推进到真正的“办事”。
OpenAI提到的另一个已知客户是德国电信。电信行业本身拥有大规模客服坐席、复杂的套餐业务、故障处理、多语言服务和账单解释需求,无疑是语音模型落地的天然沃土。

GPT-Realtime-2还有一个值得关注的细节:可调节的推理强度。OpenAI的开发者文档指出,该模型将推理能力引入了语音到语音的工作流。在多数生产场景中,开发者可以先使用较低的推理强度,优先保障通话中的响应速度;当遇到更复杂的客服、预订或排障任务时,再提高推理强度,用更多的计算资源换取更周全的判断。
这个设计非常务实。语音交互比文字聊天更惧怕停顿,用户在电话中等待一两秒,卡顿感就会非常明显。推理越强,通常延迟压力也越大。如何在性能与响应速度之间取得平衡,是开发者必须面对的取舍。
官方也提供了一些基准测试数据。OpenAI称,在衡量音频输入、多轮对话、复杂指令和上下文整合能力的Big Bench Audio和Audio MultiChallenge测试集上,GPT-Realtime-2的表现分别比GPT-Realtime-1.5高出15.2%和13.8%。
第二款模型GPT-Realtime-Translate,主打实时语音到语音的翻译。按照开发者示例,它适用于广播、直播、电话和视频对话等场景,能够自动识别输入语言并输出翻译后的语音和文本,开发者只需设定目标语言。该模型支持70多种输入语言到13种输出语言,并能在说话人讲话时跟上节奏。传统语音翻译往往要求说话人停顿,等一句话结束后再翻译,而GPT-Realtime-Translate则更接近连续口译的模式。
OpenAI将其应用场景分为两类:一类是广播式翻译,如直播、网络研讨会、大型会议演讲;另一类是对话式翻译,如呼叫中心、视频通话。这两类基本覆盖了企业最愿意付费的跨语言场景:客服、教育、国际会议、内容平台与跨境销售。
第三款模型GPT-Realtime-Whisper,强调实时流式转写。它能在说话时同步生成字幕、会议记录或工作流更新。相比前两者,Whisper的商业门槛最低,价格仅为每分钟0.017美元。
将三款模型放在一起看,OpenAI已经将实时音频赛道拆解为三个明确的入口:GPT-Realtime-2处理智能语音助手,GPT-Realtime-Translate攻克跨语言沟通,GPT-Realtime-Whisper解决实时文本化。三者在定价、延迟要求和客户场景上各有侧重,其战略意图很明显:在差异化的路径上,试图全面覆盖语音AI市场。
TTS市场:卷完“音质”,再卷“实时”
这次发布传递出一个清晰的商业信号:OpenAI正将其语音AI能力,全面推向API市场和企业工作流。
除了官方点名的Zillow、Priceline和德国电信,更多公司正在接入这批新模型。例如,视频平台Vimeo、企业知识管理工具Glean、客服软件公司Intercom,以及专注于企业语音助手的BolnaAI,都出现在目前已披露的相关案例中。这意味着,GPT-Realtime系列已成为OpenAI一个成熟的商业化产品线,客户覆盖了内容平台、企业办公、客服系统和语音助手创业公司等多元化的开发者群体。
OpenAI所展示的,是一幅AI在真实业务中运作的图景:在通话中理解需求、调用系统、翻译语言,并将语音交互无缝接入企业后台。而这一切,正发生在语音AI市场持续升温的周期内。
过去两年,语音AI赛道备受瞩目的公司之一是ElevenLabs。这家2022年成立的公司,最初凭借高度拟真的AI配音、声音克隆和多语言本地化能力脱颖而出,随后又将产品线延伸至企业语音助手。今年2月,ElevenLabs宣布完成5亿美元D轮融资,估值达到110亿美元,较2025年1月的33亿美元大幅跃升。公司表示,资金将用于全球扩张,并持续投入情感化对话模型、配音、转写和AI语音助手等方向。
更近的动态显示,ElevenLabs的年化经常性收入已超过5亿美元,其D轮融资方阵容豪华,既包括贝莱德、惠灵顿管理等大型机构,也包括英伟达、赛富时创投、德国电信等产业资本,甚至吸引了演员Jamie Foxx、Eva Longoria以及《鱿鱼游戏》创作者黄东赫等个人投资者。
市场的需求正在急剧变化。语音AI早已不再是创作者的配音工具那么简单。影视、广告、游戏、教育、企业培训、无障碍服务、内容出海和电话助手等领域,都在渴求更自然、更经济、更可控的机器语音。
Deepgram代表了另一种路线。这家公司长期深耕语音识别基础设施,客户多来自联络中心、会议、销售、医疗、金融等高频率语音场景。近年来,Deepgram开始补全文本转语音和语音助手接口,试图打通语音模型的“办事”能力。其Aura-2文本转语音模型面向实时应用,流式延迟低于200毫秒,并能更自然地朗读地址、电话号码等结构化内容。同时,它将语音识别、合成、实时情绪分析、话题检测和摘要能力打包,提供给联络中心等企业场景。
Cartesia则主打低延迟和实时交互。这家由前斯坦福AI实验室成员创办的公司,以状态空间模型为技术标签,追求更快、更低成本的实时多模态模型。其核心语音产品Sonic系列,主打低延迟文本转语音。根据文档,Sonic 3是一个流式模型,强调高自然度、精准跟随文本和低延迟,支持42种语言,并可控制音量、语速和情绪。在Cartesia官网上,90毫秒的低延迟被作为实时对话体验的核心卖点。
这些公司的竞争,共同推动了TTS(文本转语音)市场的演进。早期的竞争焦点是“像不像真人”;随后,战火蔓延到多语言覆盖、声音克隆、情绪表达、版权和效率;而现在,语音助手将标准再次拉高。企业需要的不仅仅是一个好听的声音,而是一套完整链路:精准的语音识别、极低的首字延迟、能理解上下文的大模型、稳定的工具调用、自然的语音合成、流畅的翻译,以及能融入后续工作流的转写能力。
一些行业资料反映了这一趋势。Deepgram在一篇对比文章中提到,面向语音助手的文本转语音,已将“首段语音生成低于100毫秒”视为新的性能基线之一。
在全行业竞逐“实时”能力的背景下,OpenAI最大的优势或许在于其完整的模型栈。开发者可以在同一个平台上调用从语音识别、理解、推理到合成、翻译的整套能力,减少了对接多个供应商带来的延迟、集成和运维成本。对企业而言,统一平台也意味着更便捷的权限管理、日志留存、数据策略和安全审查。
当然,OpenAI想要通吃企业语音市场,也并非易事。ElevenLabs估值已达110亿美元,年化收入超5亿美元;Deepgram在今年1月完成1.3亿美元融资,估值13亿美元,服务超1300家客户;Cartesia也在2025年完成6400万美元A轮融资,其Sonic模型据称已有上万客户使用,并以90毫秒延迟和42种语言作为主打。OpenAI虽有模型栈优势,但语音市场早已强手如林。

萨姆·奥特曼对这次发布的公开表态非常简短。他在X上表示,GPT-Realtime-2进入API是“相当大的一步前进”,同时OpenAI仍在持续改进ChatGPT内的语音体验。不过,从各大企业用户争相测试的态势来看,OpenAI的这一代新语音模型,足以让人对其未来一年的市场表现抱有更多期待。
相关攻略
OpenAI刚刚一口气发布了三款全新的实时语音模型。这不仅仅是简单的技术迭代,而是将GPT-5级别的推理能力直接塞进了语音交互的管道里,更关键的是,它顺手给同声传译行业带来了一个震撼弹:现在,能紧跟发言人节奏的实时翻译,每分钟成本只要两毛五。 这三款模型——GPT-Realtime-2、GPT-Re
昨天凌晨,OpenAI正式揭晓了三款全新的音频模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。官方将其定位为能让开发者构建具备“实时推理、翻译和转写”能力的语音产品。目前,这三款模型已面向开发者开放测试。 这次更新的核心,在
OpenAI翁家翌的研究提出,通过编程智能体持续修改代码而非训练神经网络,可在多项任务中达到深度强化学习水平。该方法将策略更新转为维护可演进的软件系统,降低启发式系统维护成本,并为在线学习与持续学习提供新思路,未来或与神经网络结合形成分层智能系统。
OpenAI这周四放了个消息:他们开始向经过审核的安全团队,限量开放GPT-5 5-Cyber的预览版。简单说,这就是他们最新模型GPT-5 5的网络安全专用版本。公司方面特别强调,这个版本的目的可不是为了增强网络攻击或防御能力。它的核心逻辑在于,通过定向训练,放宽了模型在处理安全任务时的一些内置限
近日,埃隆·马斯克与OpenAI之间的法律纠纷在美国加州奥克兰法院进入关键庭审阶段,双方交锋持续升级。OpenAI联合创始人兼总裁格雷格·布罗克曼连续两日出庭作证。庭审中,一份引人瞩目的关键证据被当庭出示——布罗克曼在公司创立初期的私人日记,这份记录为外界揭示了这家AI领军企业早期不为人知的内部博弈
热门专题
热门推荐
当在OKX欧易平台提币遇到“审核中”状态时,通常意味着交易触发了平台的安全风控流程。常见原因包括账户安全验证、大额提现、新设备登录或涉及高风险资产。等待期间,用户应保持耐心,检查账户信息是否完整,并可通过官方渠道查询进度。理解这一机制有助于更顺畅地进行资产管理。
小米澎湃OS3系统已全量上线母亲节限定水印,采用手绘康乃馨花束设计,用户需将相册编辑应用升级至2 3 0以上版本方可在5月13日前使用。同时,小米汽车于5月9日至10日推出门店活动,到店扫码可领取鲜花,每家门店至少备有30支。
《刺客信条:黑旗重置版》扩展了探索区域,新增岛屿与城市。玩家可招募三名拥有特殊能力的新船员,并体验更丰富的角色剧情。游戏以罗盘系统取代小地图,优化探索沉浸感,支持按键自定义,并计划加入经典操作模式。将于7月10日登陆PS5、XSX S及PC平台。
面对海量的欧易平台教程,新手常感无从下手。本文提供一份清晰的入门顺序指南,建议用户首先熟悉官网结构与安全公告,随后完成账户注册与基础安全设置。接着下载官方App并掌握基本操作,最后从现货交易开始实践,逐步学习更复杂的交易类型。遵循此路径可系统性地建立认知,安全高效地开启数字资产交易之旅。
比亚迪“闪充”技术实测充电速度领先,引发安全性与实用性讨论。行业数据显示日常仍以慢充为主,快充多用于应急。虽大功率快充可能影响电池寿命,但适度放宽充电时间或更利于技术落地。其核心价值在于提供灵活补能选择,服务于更自由从容的用车体验。





