3月7日最新消息显示,OpenAI正在秘密研发一款突破性的语音交互模型,目标是让用户与ChatGPT的对话体验更接近真人交流的流畅度。这项技术的核心创新在于:当用户在对话过程中突然打断系统发言时,AI能够实时调整回应内容,彻底改变现有语音模式那种突兀中断的交互体验。
目前ChatGPT的高级语音模式采用回合制对话机制,用户必须完整说完一段话,AI才会开始处理语音并生成答复。如果在AI发言时插入"好的"或"嗯"这类简短回应,系统通常会直接停止响应,无法像真实对话那样持续深入交流。
为解决这一痛点,OpenAI正在开发的BiDi(双向语音模型)能够持续处理说话者的语音输入,因此在被打断时可以立即调整回应策略。相比之下,现有语音模型一旦开始生成答复,输出内容就基本固定,无法根据新的输入进行动态调整。
这项前沿技术目前仍处于开发阶段。据知情人士透露,原型模型在持续对话几分钟后容易出现故障,有时甚至会发出不自然的机械音。OpenAI研发团队原本希望在今年第一季度发布BiDi模型,但最新消息显示发布时间可能会推迟到第二季度或更晚。
OpenAI认为,如果语音模型在响应速度上能接近文本模型,AI的应用场景将进一步扩展,因为大多数用户更习惯通过语音与AI交流,而非手动输入文字。BiDi模型在客服场景中尤其具有应用价值,能够显著提升人机对话的自然度。
举例来说,当顾客与零售商的AI客服通话时,如果顾客在对话过程中临时决定选择换货而非退货,BiDi模型理论上可以让AI客服顺畅调整对话方向,不会出现突然中断或逻辑混乱的情况。
知情人士还透露,BiDi模型在调用外部工具和应用方面也更为灵活。OpenAI此前表示,公司计划为未来主打语音交互的AI设备优化语音模型,并考虑开发一款智能音箱,通过语音指令即可查看邮件或预订服务。

