内容源自环球网
根据The Information在3月6日的报道,人工智能领域的领先企业OpenAI正在研发一款名为BiDi的双向语音模型。这款新模型的研发目标,是优化用户与ChatGPT进行语音对话时的交互体验,让机器与人的交流听起来更接近真实、自然的人际沟通模式。据称,BiDi模型能够在对话被打断时,实时调整自己的回应内容,实现更流畅的双向交谈。
当前ChatGPT的高级语音模式采用的是回合式对话机制,这在交互体验上存在一定的局限性。用户需要完整表达完毕,模型才会开始处理语音并生成回答;如果在模型发言过程中,用户发出类似“okay”或“mm-hm”的回应,甚至直接打断,系统往往会立刻停止发言,无法像正常人际对话那样流畅地衔接和继续。

此次推出的BiDi双向语音模型,其核心突破在于能够持续处理说话者的语音输入。与现有语音模型一旦开始生成答复,输出内容便基本固定、无法根据新输入调整的特点不同,BiDi模型在对话中被用户打断时,可以立即根据新的语音信息来动态调整回应内容,从而实现更为流畅的实时交互。
不过,这项技术目前仍处于开发阶段,尚未完全成熟。有了解项目情况的人士透露,BiDi原型模型在持续对话数分钟后容易出现故障,还可能产生听起来不够自然的声音。原研发团队曾计划在今年一季度推出该模型,但目前的发布时间很可能已推迟至第二季度甚至更晚。
OpenAI方面认为,如果语音模型的性能能够逐步接近文本模型,人工智能的应用范围将得到进一步拓展。原因在于,语音交流是大多数人更习惯的交互方式,相比于文字输入,语音交互能够降低使用门槛,使AI技术触及更广泛的用户群体。
从实际应用场景来看,BiDi双向语音模型极具想象空间,尤其在客户服务领域的表现值得期待。例如,顾客在与零售商的AI客服对话时,若在交流中临时改变需求,比如将退货改为换货,BiDi模型能让AI客服流畅地调整对话逻辑,避免出现突然停顿或回应混乱的状况,从而有效提升服务效率与用户体验。此外,该模型在调用外部工具和应用方面,也具备更高的灵活性。
据了解,OpenAI此前已透露相关规划,计划为未来一款主打语音交互的AI设备优化其语音模型,还考虑开发智能音箱类产品,用户通过语音指令,即可实现查收邮件、预订服务等操作。而此次BiDi双向语音模型的研发,或将为相关产品的落地提供关键的技术支撑。(作者:纯钧)
