OpenAI研发双向语音模型:通话打断后可自然续聊,体验更拟人
据IT之家3月5日晚间报道,根据The Information的消息,OpenAI正在研发一款全新的语音模型,旨在让用户与ChatGPT的交谈体验更加流畅自然。当使用者在与AI对话过程中突然插话打断时,这款AI能够即时调整回应内容,而不会像现有系统那样突兀地中断。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
目前ChatGPT的高级语音模式采用的是回合式对话机制。用户必须先完整说完一段话,AI才会开始处理语音并生成回答。如果用户在AI发言时插入诸如"okay"或"mm-hm"等回应,系统通常会直接停止播报,而不会像真人对话那样顺势继续交流。
OpenAI正在开发的这项新技术被命名为BiDi模型。该模型具备持续处理说话者语音输入的能力,因此在被打断时可以立即调整回应内容。相比之下,现有语音模型一旦开始生成回答,其输出内容就基本固定,很难再根据新的输入信息进行实时调整。
这项技术目前仍处于早期开发阶段。一位了解项目情况的人士透露,原型模型在持续对话几分钟后容易出现故障,有时甚至会发出不自然的机械音。OpenAI研发团队原本希望在今年第一季度推出BiDi模型,但目前最新的发布时间可能会推迟到第二季度或更晚。
OpenAI认为,如果语音模型在性能表现上能够接近文本模型,AI的应用范围将进一步扩大。因为大多数人更习惯于通过语音与AI进行交流,而不是输入文字。
BiDi模型在客户服务场景中尤其具有应用潜力。例如,当顾客与零售商的AI客服对话时,如果顾客在交流过程中临时决定选择换货而非退货,BiDi模型理论上可以让AI客服顺畅地调整对话方向,而不会突然中断或出现应答混乱。
这位知情人士还表示,BiDi模型在调用外部工具和应用方面也更加灵活。据IT之家了解,OpenAI此前曾表示,公司计划为未来一款主要通过语音交互的AI设备改进语音模型,并考虑开发一款智能音箱,用户通过语音指令即可查看邮件或预订服务。
相关攻略
3月31日,苹果于今日凌晨开始分批推送国行Apple Intelligence Beta版,需升级至iOS 26 4及以上系统方可体验。彭博社记者马克·古尔曼今日发文称Apple Intellig
DeepSeek网页和App在连崩10多个小时后终于恢复了。这件事给梁文锋提了个醒,网上都说4月份就要发布DeepSeek-V4了,到时候DeepSeek面临的压力会比现在大得多。怎样让服务器在峰值
财联社3月29日讯2026年,一只“红色小龙虾”在科技圈引发广泛关注。OpenClaw的爆火,不仅是一次技术产品的出圈,也在中关村论坛期间掀起了关于AI开源生态与智能体未来的深层讨论,杨植麟、张鹏、
库克手持iPhone 17 Pro 北京时间3月30日,据彭博社报道,苹果准备开放Siri等AI战略大调整表明,该公司正在重新致力于其核心商业模式:销售硬件和服务,依靠硬件搭建起类似于App Sto
热门专题
热门推荐
PChome 3月31日消息,OPPO官微官宣,OPPOx哈苏影像新品联合发布会将于4月21日晚19:00在成都举办,Find X9s Pro、Find X9 Ultra等新品将至。据了解,OPPO
小红书网页版登录入口为https: www xiaohongshu com explore,支持扫码、手机号验证码及微信三种登录方式,首页默认瀑布流展示热门笔记,具备多维度内容检
两年前,谢添天发现自己的声音被一款APP“盗”走——用户输入文本,即可用他的音色生成以假乱真的AI声音。维权半年,因举证难度太高,最终以和解和对方致歉了结。两年后,一场大规模的联合发声,将AI盗声侵
来源:央广网3月28日至29日,以“发挥主流媒体引领力 激发多元主体创造力——共创繁荣网络内容生态”为主题的2026中国网络媒体论坛在河南郑州举行。网络媒体因技术而诞生,凭创新而繁荣。面对新一轮科技
当大语言模型与AgenticAI(智能体)从试验场进入企业级生产环境,SaaS行业的底层价值逻辑正面临系统性重估。这一轮变革的核心,正指向“AI CRM 2 0”的全面到来——它不再是传统CRM的功





