首页 游戏 软件 资讯 排行榜 专题
首页
AI
揭秘首个原生语音基准备战MultiChallenge:大模型音频场景集体闯关

揭秘首个原生语音基准备战MultiChallenge:大模型音频场景集体闯关

热心网友
17
转载
2026-01-06


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新智元报道

编辑:LRST

【新智元导读】文本领域的大模型满分选手,换成语音就集体挂科?大模型引以为傲的多轮对话逻辑,在真实人声面前竟然如此脆弱。Scale AI正式发布首个原生音频多轮对话基准Audio MultiChallenge,直接撕开了大模型靠合成语音评测维持的优等生假象。实验显示,强如Gemini 3 Pro在真实场景下的通过率也仅过半数,而GPT-4o Audio的表现更是令人大跌眼镜。

随着实时语音大模型的普及,人们一度以为AI实时伴侣已经跨越了自然交互的最后一道门槛。

然而,大模型在语音对话中表现出的聪明,很大程度上源于评测手段的滞后。

此前,Scale AI推出的MultiChallenge基准凭借对指令保留、推理记忆和自我一致性的严苛考察,被公认为评估大模型逻辑长性的黄金标准。

但长久以来,该基准一直缺少一个真正的音频原声版本。

最近,Scale AI正式补齐了这块拼图,发布Audio MultiChallenge,不仅刷新了语音交互的新高度,更揭开了行业内一个公开的秘密:

由于缺乏原生音频测试集,模型厂商在发布报告时,往往不得不利用T2S(Text-to-Speech)将文本基准转换为语音进行评测。


论文链接:https://arxiv.org/pdf/2512.14865

这种做法虽然让数据看起来很漂亮,却在无形中给模型加了一层过度美化的滤镜。



撕掉语音外壳

为什么TTS测不出真本事?

利用TTS转换来进行评测,实际上是为模型营造了一个完美的无菌环境。

TTS 生成的语音平滑、规律且高度标准化,彻底过滤掉了人类语言中最重要的特质:日常说话时的各种吞吐、重复、琐碎停顿以及临时改口。

当你对AI说:我想定周一,哦不,是周三的票,等下……还是周二吧。

这种充满了逻辑回溯和口语碎片的自然场景,是目前TTS技术极力避免但在现实生活中无处不在的。

过去,模型穿上了一层由合成语音搭建的语音外壳,本质上是在用文本思维处理洁净信号。

而一旦脱离这个外壳,面对Audio MultiChallenge中47名真实说话者录制的原始音频,模型的逻辑链条便会迅速崩塌。

论文直言不讳地指出:模型在合成语音上的得分显著高于真实人声,这证实了干净的合成音频掩盖了模型在现实世界中的失败模式(Masking real-world failure modes)。

Gemini 3 Pro勉强登顶

GPT-4o意外折戟标题

Audio MultiChallenge延续了原版的严苛逻辑,并针对音频特性新增了致命的一击,从指令保留、推理记忆、自我一致性以及核心的Voice Editing(语音编辑) 四个轴向对模型进行综合考核。

根据论文公布的排行榜,目前全球顶尖模型的音频原生能力普遍处于及格线以下:


实验数据揭露了一个惊人的落差:Gemini 3 Pro Preview凭借其推理架构在逻辑深度上维持了领先;而GPT-4o Audio Preview在面对真实人类语音时,表现出的鲁棒性远低于预期,通过率甚至只有Gemini的一半左右。

揭秘三大失败模式

语音逻辑的深层鸿沟

论文通过详细的错误分析,精准捕捉到了模型在音频模态下的三个软肋,这些结论直接指出了大模型在语音交互中的底层Gap:

语音编辑是逻辑黑洞:这是本次基准新增的维度。当用户在说话过程中中途改口或逻辑回溯时,大多数模型会死板地执行听到的第一个指令。该维度的平均通过率仅为17.99%,这意味着模型在听觉上无法有效处理信息的撤回与覆盖。

时长驱动的崩溃:模型表现随着音频总时长增加而稳步恶化。数据显示,当对话累计音频超过8分钟时,模型的自我一致性得分会骤降至 13% 左右。这意味着目前的语音模型在处理长程语音上下文时,状态追踪能力极其薄弱。

音频线索的感知缺失:当任务要求模型识别非语义信号(如背景的环境声、说话人的语气情绪)来辅助推理时,模型表现比纯语义任务下降了 36.5%。这说明模型依然把语音当成脱水的文字在读,而没能真正听懂声音背后的物理世界。

结语

Audio MultiChallenge的发布证明了语音绝不仅是文本的简单投射,包含着实时状态跟踪、情绪理解以及复杂的口语特质处理。

Scale AI的这一记重锤敲醒了业界:如果我们不能撕掉那层精美的语音外壳,解决模型对自然语音中不完美特征的感知断层,那么AGI驱动的自由交互,将永远停留在听懂单词却不懂逻辑的初级阶段。

参考资料:

https://arxiv.org/pdf/2512.14865

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

来源:https://www.163.com/dy/article/KIJEOOGU0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Macbook Pro M5配置OpenClaw排坑记录
AI
Macbook Pro M5配置OpenClaw排坑记录

OpenClaw 完整使用攻略:从零安装到高效配置的实战经验 在深度使用 OpenClaw 的过程中,我遇到了不少典型问题。本文将系统梳理从环境准备到最终配置的核心步骤与避坑要点,旨在帮助你高效部署,避免重复踩坑。 1 环境准备:正确安装方法与版本选择 首先,确保你的 npm 和 Node js

热心网友
04.01
字节Seed启动全球AI人才招募:2027届大模型岗位开放
业界动态
字节Seed启动全球AI人才招募:2027届大模型岗位开放

4月1日消息,字节跳动Seed正式启动大模型人才校招,下设2027届应届生招聘和在校实习生招聘。据悉,今年Seed将加大人才投入,本次在全球招募的2027届大模型人才将达到约100位。在招聘标准上,

热心网友
04.01
OpenClaw调用Ollama大模型
AI
OpenClaw调用Ollama大模型

OpenClaw本地调用Ollama大模型:免API密钥,云端级模型轻松部署 现在,你可以轻松在本地环境中调用功能强大的大模型,无需依赖第三方平台的API密钥,也不必担心额外费用与隐私泄露风险。OpenClaw与Ollama完美协同,能够在本地部署如GLM-4等云端级别的模型,让你获得安全、高效、可

热心网友
04.01
智己LS8上“硬菜”:千问大模型如何赋能智慧驾驶
编程语言
智己LS8上“硬菜”:千问大模型如何赋能智慧驾驶

网易汽车3月19日报道提及2026年最为爆火的是什么,答案一定非 AI Agent莫属。比如最近流行的OpenClaw全民“养龙虾”,就是典型代表。你无需一步一步的告诉它做什么,只需告诉它想要的结果

热心网友
04.01
中信证券:关注大模型迭代带来的模型原厂、应用与基础设施机遇
科技数码
中信证券:关注大模型迭代带来的模型原厂、应用与基础设施机遇

智通财经APP获悉,中信证券发布研报称,2026年以来,国产大模型厂商聚焦Agent及代码能力升级,竞相发布新模型。即将发布的DeepSeek下一代新模型有望延续高性价比开源模型路线,在能力上实现更

热心网友
04.01

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

百度网盘app如何切换企业版-百度网盘app切换企业版的具体操作方法介绍
手机教程
百度网盘app如何切换企业版-百度网盘app切换企业版的具体操作方法介绍

百度网盘个人版如何转企业版?完整切换步骤详细指南 当个人网盘难以满足团队文件共享与协作需求时,百度网盘提供的企业版无疑是高效解决方案。本文将为你详细解析如何直接在百度网盘App内,将个人账户一键切换至功能更强大的企业版,快速开启团队文件管理新模式。 第一步:进入个人中心页面 首先,请确保已安装并打开

热心网友
04.02
AI+eSIM落地 中国联通5G AI CPE巴展重磅亮相
科技数码
AI+eSIM落地 中国联通5G AI CPE巴展重磅亮相

“AI+eSIM”云智终端方案正式商用,首批合作项目5G AI CPE成功落地 在MWC 2026世界移动通信大会上,产业合作迎来重大进展。由全球移动通信系统协会(GSMA)与中国联通共同倡导的“‘AI+eSIM’云智终端合作联通方案”正式对外发布,并迅速完成首个商业化项目签约。中国联通联合通则康威

热心网友
04.02
洛克王国世界水泡壳如何搭配技能-洛克王国世界水泡壳技能搭配方法
游戏资讯
洛克王国世界水泡壳如何搭配技能-洛克王国世界水泡壳技能搭配方法

洛克王国世界水泡壳技能搭配完全指南:打造攻防一体的战术核心 世界水泡壳的技能池设计充满了战术深度,完美诠释了攻防一体的战斗哲学。无论是纯粹依靠威力压制对手的技能,还是具备控制、辅助等战略功能的技能,都能在其技能库中找到。掌握其技能搭配的核心思路,是让世界水泡壳在对战中发挥出全部潜力的关键,能够轻松取

热心网友
04.02
现货比特币(BTC)ETF当周吸金14.2亿美元,创10月初以来最强劲一周
web3.0
现货比特币(BTC)ETF当周吸金14.2亿美元,创10月初以来最强劲一周

现货比特币ETF单周吸金14 2亿美元,强势回归背后的市场信号 加密货币市场正迎来关键转折点。近期数据显示,现货比特币ETF资金流入呈现爆发式增长,成为近期最受关注的市场风向标。这不仅反映了机构资金的重新布局,更可能预示着市场供需结构的深层变化。 数据解读:创纪录的资金流入意味着什么? 根据专业追踪

热心网友
04.02
燕云十六声河西竹篮打水奇遇怎么做-燕云十六声河西竹篮打水奇遇的做法介绍
游戏资讯
燕云十六声河西竹篮打水奇遇怎么做-燕云十六声河西竹篮打水奇遇的做法介绍

河西竹篮打水奇遇触发地点指南 想要成功触发《燕云十六声》中颇具趣味的“竹篮打水”奇遇,玩家需要首先前往河西地图的特定区域进行探索。该触发点位置较为隐蔽,建议在河西沿岸的村落与水边场景多番巡视。当你接近正确位置时,可以留意游戏内的环境暗示,例如独特的视觉标识、背景音效的变化或氛围的微妙转变,这些都是系

热心网友
04.02