5月9日,全球权威的TTS模型评测榜单Artificial Analysis Speech Arena Leaderboard公布最新排名。一个备受瞩目的亮点是,中国阶跃星辰发布的语音生成大模型StepAudio 2.5 TTS,成功跃升至全球前三。这不仅刷新了国产语音模型在该榜单的历史最佳成绩,也使其成为当前榜单上排名最高的中国TTS模型。

该榜单的评测机制与传统实验室指标评估截然不同。其采用盲测Elo竞技评分体系,核心是让用户在不知晓语音来源的情况下,直接对同一文本生成的两段语音进行听感偏好投票。测试场景全面覆盖客户服务、知识讲解、智能助手、娱乐播报等高度真实的日常应用。因此,StepAudio 2.5 TTS取得这一排名,其意义远超参数性能的提升。它直接证明,在真实用户的听感评判中,该模型合成的声音更具自然度和真人感,这为其在实际应用场景中的竞争力提供了最具说服力的背书。
事实上,阶跃星辰近期在语音AI领域持续发力,密集推出了StepAudio 2.5系列模型。该系列完整覆盖语音交互全链路,包含追求高自然度的TTS语音合成模型、强调高速高准确率的ASR语音识别模型,以及于昨日迅速上线的Realtime实时语音交互模型。这款实时模型定位清晰:旨在打造更具“真人沉浸感”的AI对话伴侣。它着重于顶尖的副语言表达能力、支持千万量级的人设音色定制,并在智商与情商层面均追求领先水平,致力于为用户提供“有温度、有灵魂、有态度”的实时语音对话体验。
语音大模型始终被业界公认为开启下一代自然人机交互的核心钥匙。从OpenAI到Google,全球顶尖科技企业均在此领域进行长期且重度的投入。而阶跃星辰在AI语音赛道上的布局早已展开,并取得了系列突破。其开源推理语音模型Step Audio R1.1,已在Artificial Analysis Speech Reasoning榜单上连续四个月稳居榜首,目前仍保持全球第一。另一开源模型Step Audio EditX,则是全球首个迭代式情绪风格语音编辑模型,作为一种零样本TTS技术,它仅需3秒参考音频即可精准克隆音色,其效果甚至优于众多闭源TTS模型的主音色,目前位列同榜单开源榜全球第二。
技术的领先性最终需通过市场落地来验证。在商业化应用层面,阶跃的语音模型已深入多个关键终端场景。例如,在智能汽车领域,阶跃率先实现了端到端语音大模型在吉利银河M9上的量产搭载;同时,也为整车智能体超级Eva提供了核心语音交互能力,并随极氪8X首发同步量产上市。这些成功案例清晰地表明,其技术优势正在迅速转化为切实的产品竞争力与市场占有率。
