5月28日,AI领域迎来一则备受关注的消息:在全球权威评测平台Artificial Analysis的语音排行榜(Speech Arena)上,阿里云语音大模型Fun-Realtime-TTS-Preview斩获1190分的Elo评分,位列全球第五、国产第一。这一成绩标志着国产语音模型在国际舞台上的一次硬核实力展示。
更值得关注的是,在ASR(语音转文字)、Chat(端到端语音理解与对话)以及TTS(文字转语音)三大核心赛道上,该模型均夺得全国第一,实现了语音交互领域的“大满贯”。换言之,从“听得准”到“聊得棒”再到“说得好”,阿里这套语音模型在每个环节都达到了国内顶尖水准。

事实上,语音大模型的能力可以拆解为三个层次:首先是“听得准”,即ASR能力,确保机器精准识别用户话语;其次是“说得好”,即TTS能力,让发声自然流畅;最后是“聊得棒”,即Chat能力,这才是语音交互的灵魂——实现有来有回的意图理解与回应。这三个层次既各自独立又相互依存,共同构建完整的语音交互体验。缺少任何一环,体验都会大打折扣。
这背后还有一个值得关注的看点:在此之前,阿里语音大模型家族中的另两款模型——Fun-Realtime-ASR和Fun-Realtime-AudioChat,已在该平台上登顶,分别拿下“听准”“听懂”“会聊”三项指标的全球第一,整体表现甚至超越GPT-Realtime-2等国际顶尖语音模型。因此,此次TTS模型的突破,相当于补齐了最后一块拼图。
从落地层面来看,阿里语音大模型家族已深度融入千问App、高德地图、钉钉等国民级应用。无论是地图语音导航中的“我要去XX”,还是钉钉内将会议录音转为文字纪要,背后很可能都是这些模型在实时运作。此外,他们还提供企业级定制接口,支持金融、医疗等特定行业场景的灵活适配。更值得一提的是,阿里语音团队开源的FunASR、CosyVoice等多款模型,在GitHub上累计获得数万星标,深受海内外开发者青睐——这正是一个生态的真正活力所在。

总而言之,语音交互正从“能听懂”向“会聊天”加速进化,而阿里云的这一系列动作,无疑为国产语音模型在全球赛道上亮出了关键底牌。
