OpenAI研发懂人双向语音模型，对话更自然

时间：2026-03-06 13:07

来源：环球网【环球网科技综合报道】3月6日消息，据The Information报道，人工智能企业OpenAI正研发一款名为BiDi的双向语音模型，旨在优化用户与ChatGPT的语音交互体验，让人机

内容源自环球网

根据The Information在3月6日的报道，人工智能领域的领先企业OpenAI正在研发一款名为BiDi的双向语音模型。这款新模型的研发目标，是优化用户与ChatGPT进行语音对话时的交互体验，让机器与人的交流听起来更接近真实、自然的人际沟通模式。据称，BiDi模型能够在对话被打断时，实时调整自己的回应内容，实现更流畅的双向交谈。

当前ChatGPT的高级语音模式采用的是回合式对话机制，这在交互体验上存在一定的局限性。用户需要完整表达完毕，模型才会开始处理语音并生成回答；如果在模型发言过程中，用户发出类似“okay”或“mm-hm”的回应，甚至直接打断，系统往往会立刻停止发言，无法像正常人际对话那样流畅地衔接和继续。

此次推出的BiDi双向语音模型，其核心突破在于能够持续处理说话者的语音输入。与现有语音模型一旦开始生成答复，输出内容便基本固定、无法根据新输入调整的特点不同，BiDi模型在对话中被用户打断时，可以立即根据新的语音信息来动态调整回应内容，从而实现更为流畅的实时交互。

不过，这项技术目前仍处于开发阶段，尚未完全成熟。有了解项目情况的人士透露，BiDi原型模型在持续对话数分钟后容易出现故障，还可能产生听起来不够自然的声音。原研发团队曾计划在今年一季度推出该模型，但目前的发布时间很可能已推迟至第二季度甚至更晚。

OpenAI方面认为，如果语音模型的性能能够逐步接近文本模型，人工智能的应用范围将得到进一步拓展。原因在于，语音交流是大多数人更习惯的交互方式，相比于文字输入，语音交互能够降低使用门槛，使AI技术触及更广泛的用户群体。

从实际应用场景来看，BiDi双向语音模型极具想象空间，尤其在客户服务领域的表现值得期待。例如，顾客在与零售商的AI客服对话时，若在交流中临时改变需求，比如将退货改为换货，BiDi模型能让AI客服流畅地调整对话逻辑，避免出现突然停顿或回应混乱的状况，从而有效提升服务效率与用户体验。此外，该模型在调用外部工具和应用方面，也具备更高的灵活性。

据了解，OpenAI此前已透露相关规划，计划为未来一款主打语音交互的AI设备优化其语音模型，还考虑开发智能音箱类产品，用户通过语音指令，即可实现查收邮件、预订服务等操作。而此次BiDi双向语音模型的研发，或将为相关产品的落地提供关键的技术支撑。（作者：纯钧）

来源：https://www.163.com/dy/article/KNB7M0KB0514R9OJ.html