OpenAI双向语音模型：打断也能秒回应，对话流畅更自然

3月7日消息，据媒体报道，OpenAI正在研发一种全新的语音模型，旨在让用户与ChatGPT的对话更加自然流畅。这项技术的核心突破在于，当用户在AI说话过程中打断系统时，AI能够实时调整回应，而不是

3月7日最新消息显示，OpenAI正在秘密研发一款突破性的语音交互模型，目标是让用户与ChatGPT的对话体验更接近真人交流的流畅度。这项技术的核心创新在于：当用户在对话过程中突然打断系统发言时，AI能够实时调整回应内容，彻底改变现有语音模式那种突兀中断的交互体验。

目前ChatGPT的高级语音模式采用回合制对话机制，用户必须完整说完一段话，AI才会开始处理语音并生成答复。如果在AI发言时插入"好的"或"嗯"这类简短回应，系统通常会直接停止响应，无法像真实对话那样持续深入交流。

为解决这一痛点，OpenAI正在开发的BiDi（双向语音模型）能够持续处理说话者的语音输入，因此在被打断时可以立即调整回应策略。相比之下，现有语音模型一旦开始生成答复，输出内容就基本固定，无法根据新的输入进行动态调整。

这项前沿技术目前仍处于开发阶段。据知情人士透露，原型模型在持续对话几分钟后容易出现故障，有时甚至会发出不自然的机械音。OpenAI研发团队原本希望在今年第一季度发布BiDi模型，但最新消息显示发布时间可能会推迟到第二季度或更晚。

OpenAI认为，如果语音模型在响应速度上能接近文本模型，AI的应用场景将进一步扩展，因为大多数用户更习惯通过语音与AI交流，而非手动输入文字。BiDi模型在客服场景中尤其具有应用价值，能够显著提升人机对话的自然度。

举例来说，当顾客与零售商的AI客服通话时，如果顾客在对话过程中临时决定选择换货而非退货，BiDi模型理论上可以让AI客服顺畅调整对话方向，不会出现突然中断或逻辑混乱的情况。

知情人士还透露，BiDi模型在调用外部工具和应用方面也更为灵活。OpenAI此前表示，公司计划为未来主打语音交互的AI设备优化语音模型，并考虑开发一款智能音箱，通过语音指令即可查看邮件或预订服务。

OpenAI开发双向语音模型：被打断也能秒回让通话更自然顺畅