去年,生成式人工智能在音乐领域的应用不断催生新的体验,但歌唱语音合成技术(SVS)的整体发展步伐却相对平缓。
为了推动该领域的进展,Soul App AI 团队近期联合吉利汽车研究院人工智能中心、天津大学视听认知计算团队以及西北工业大学的音频语音与语言处理研究组,共同开源了歌声合成模型 SoulX-Singer。这是一个面向实际应用场景设计的高质量零样本歌声合成模型,拥有超过42000小时的训练数据,覆盖多种语言、音色及演唱风格。其在稳定性、可控性与泛化能力方面,均已达到当前开源SVS模型的领先水准。

尽管此前歌声合成领域已涌现出不少优秀成果,但由于训练数据规模有限或控制方式单一等因素,相关模型在实际使用中仍面临诸多挑战。SoulX-Singer 的发布,恰恰提供了一个真正鲁棒、灵活可控且面向场景落地的零样本歌声合成方案,为歌声合成技术在用户原创音乐创作等方向的实践应用探索带来了积极意义。
SoulX-Singer 也延续了Soul AI团队的开源工作传统。此前,该团队已陆续开源了播客语音合成模型 SoulX-Podcast、实时数字人生成模型 SoulX-FlashTalk,在语音、歌声、实时数字人、视频等多个领域,提供了切实可用的多模态生成方案。
