近日,OpenAI对其语音实时API进行了重大版本迭代,正式推出三款全新的高阶语音智能模型。此次升级全面强化了AI在实时听觉理解、自然口语对话、多语言翻译与精准转录等维度的综合性能,同时大幅降低了企业集成智能语音能力的技术成本与开发周期,为开发者构建下一代语音应用提供了更先进、更易用的核心引擎。

本次发布的三款核心模型分别为GPT-Realtime-2、实时翻译模型以及实时转写模型。其中,GPT-Realtime-2模型深度融合了GPT-5级别的强大推理内核,在语音的自然度、情感表达及人声仿真方面取得了显著突破。相比前代,它能更深度地解析上下文语境与用户意图,支持多轮、无中断的智能对话,交互体验更为流畅与拟真。
实时翻译支持超70种语言
在实时翻译能力上,全新的GPT-Realtime-Translate模型实现了对超过70种输入语言的语音识别,并可流畅输出13种目标语言的语音结果。该模型具备极低的延迟特性,能够紧跟说话者语速进行同步翻译,确保跨语言沟通的实时性与连贯性,为国际商务、在线会议、跨境客服等场景提供了专业级的解决方案。
转写模型适配办公场景
同步推出的Whisper实时转录模型,能够在语音交互进行的同时,高精度地完成语音到文字的转换工作。该模型针对会议纪要、访谈记录、课堂笔记等高频办公与学习场景进行了深度优化,可有效提升信息整理效率,减轻人工记录的压力与误差。
OpenAI指出,此次升级标志着AI语音交互从单一的问答工具,演进为集“实时聆听、智能思考、即时翻译、精准转写、自然响应”于一体的全栈式语音操作系统。其在功能实用性与场景适应性上的跨越式提升,预计将加速智能语音技术在客服、教育、医疗、智能硬件等众多行业的规模化应用与创新。
