OpenAI双向语音模型:打断也能秒回应,对话流畅更自然
3月7日最新消息显示,OpenAI正在秘密研发一款突破性的语音交互模型,目标是让用户与ChatGPT的对话体验更接近真人交流的流畅度。这项技术的核心创新在于:当用户在对话过程中突然打断系统发言时,AI能够实时调整回应内容,彻底改变现有语音模式那种突兀中断的交互体验。
目前ChatGPT的高级语音模式采用回合制对话机制,用户必须完整说完一段话,AI才会开始处理语音并生成答复。如果在AI发言时插入"好的"或"嗯"这类简短回应,系统通常会直接停止响应,无法像真实对话那样持续深入交流。
为解决这一痛点,OpenAI正在开发的BiDi(双向语音模型)能够持续处理说话者的语音输入,因此在被打断时可以立即调整回应策略。相比之下,现有语音模型一旦开始生成答复,输出内容就基本固定,无法根据新的输入进行动态调整。
这项前沿技术目前仍处于开发阶段。据知情人士透露,原型模型在持续对话几分钟后容易出现故障,有时甚至会发出不自然的机械音。OpenAI研发团队原本希望在今年第一季度发布BiDi模型,但最新消息显示发布时间可能会推迟到第二季度或更晚。
OpenAI认为,如果语音模型在响应速度上能接近文本模型,AI的应用场景将进一步扩展,因为大多数用户更习惯通过语音与AI交流,而非手动输入文字。BiDi模型在客服场景中尤其具有应用价值,能够显著提升人机对话的自然度。
举例来说,当顾客与零售商的AI客服通话时,如果顾客在对话过程中临时决定选择换货而非退货,BiDi模型理论上可以让AI客服顺畅调整对话方向,不会出现突然中断或逻辑混乱的情况。
知情人士还透露,BiDi模型在调用外部工具和应用方面也更为灵活。OpenAI此前表示,公司计划为未来主打语音交互的AI设备优化语音模型,并考虑开发一款智能音箱,通过语音指令即可查看邮件或预订服务。

相关攻略
AI编程团队30天调用OpenAIAPI费用达130万美元,消耗6030亿token,由OpenAI承担。该费用用于开发多智能体协作项目OpenClaw,通过小型专用AI协同完成代码审查等任务。尽管成本高昂,但相比旧金山人力成本,其效率与回报率更优,预示软件开发模式革新。
一个三人团队通过运行约100个AI智能体进行软件开发,月消耗130万美元,由OpenAI全额承担。这些AI深度参与代码审查、漏洞修复等协作流程,极大提升了效率。此举展示了AI作为“数字员工”的潜力,随着成本下降,大规模AI协作或将成为创业团队的常态,预示软件开发模式的根本变革。
2024年8月,比尔·盖茨给OpenAI团队出了一道AP生物考试题。他当时断言,语言模型想在这类考试中拿高分,至少还得等上三年。 结果呢?OpenAI只用了两个月,就交出了一份满分答卷。后来,盖茨在播客里回忆那个瞬间,称之为“人生中见过最震撼的技术演示”。 当时恐怕没人能想到,这场看似寻常的测试,会
GPT-Rosalind是什么 在生命科学领域,一个能真正理解复杂生物学问题、并能像资深研究员一样进行推理的AI助手,长久以来似乎都停留在想象中。现在,OpenAI将这一想象推向了现实,推出了名为GPT-Rosalind的专用推理模型。这个名字,致敬了揭示DNA双螺旋结构的关键科学家——罗莎琳德·富
OpenAI公司因数据隐私问题在美国加州面临集体诉讼。原告指控其在ChatGPT网站中嵌入了MetaPixel和GoogleAnalytics等追踪工具,导致用户的邮箱、ID及输入的查询文本等敏感信息可能被分享给Meta和谷歌等第三方。此案争议焦点在于,ChatGPT处理的信息通常高度私密,涉及
热门专题
热门推荐
潮汐守望者梅丽珊卓的出装策略,核心在于极致放大她的爆发伤害与控制能力,同时构建必要的生存保障。以下这套经过版本与实战验证的装备组合,将帮助她主宰峡谷战场,成为团队不可或缺的法术核心。 核心装备 卢登的回声通常是无可争议的首件神话装备。它提供的法术强度与技能急速完美优化了梅丽珊卓的技能循环,而其被动“
4月29日,阶跃星辰正式发布新一代图像编辑生成模型Step Image Edit 2。这款AI图像模型主打“小身材、大能力、快响应”,参数量仅3 5B,却在轻量级图像编辑评测基准KRIS-Bench中斩获综合排名第一。它全面支持文生图、中英文渲染、局部编辑、视觉推理、主体一致性及风格迁移等多种AI图
2026年的AI圈,时钟仿佛被拨快了。技术迭代的浪潮一波未平,一波又起。 尤其是进入四月以来,整个行业像是踩下了油门。Meta携Muse Spark高调回归,ChatGPT Images 2 0的生成效果在社交媒体上持续刷屏,而GPT-5 5的发布,再次将技术天花板向上推升了一个量级。视线转回国内,
从DeepMind到阿里、腾讯,各路顶尖玩家正涌入“世界模型”这个新战场。但大家争夺的,远不止是算力与资源,更核心的较量在于:究竟什么样的架构,才能真正构建起对物理世界的理解? 过去一年半,世界模型已然成为AI领域竞争最密集的焦点。参与者名单几乎涵盖了所有前沿方向:全球科技巨头、视频生成公司、机器人
柴犬币自低点反弹约30%,正尝试复苏。当前面临0 0000076美元附近的200日移动均线关键阻力,若能突破可能上涨约21%,但该位置存在解套抛压。价格需放量突破0 0000064美元以确认短期上涨趋势,下一目标0 0000072美元,下方关键支撑位于0 000006美元附近。





