Soul X吉利AIC推三大零样本歌声合成技术：支持普通话、粤语与英语

过去一年,生成式人工智能在音乐行业的应用正不断创造新体验,但歌唱语音合成领域(SVS,Singing Voice Synthesis)整体进展相对缓慢。为拓展这一领域,近日,Soul App AI

去年，生成式人工智能在音乐领域的应用不断催生新的体验，但歌唱语音合成技术（SVS）的整体发展步伐却相对平缓。

为了推动该领域的进展，Soul App AI 团队近期联合吉利汽车研究院人工智能中心、天津大学视听认知计算团队以及西北工业大学的音频语音与语言处理研究组，共同开源了歌声合成模型 SoulX-Singer。这是一个面向实际应用场景设计的高质量零样本歌声合成模型，拥有超过42000小时的训练数据，覆盖多种语言、音色及演唱风格。其在稳定性、可控性与泛化能力方面，均已达到当前开源SVS模型的领先水准。

尽管此前歌声合成领域已涌现出不少优秀成果，但由于训练数据规模有限或控制方式单一等因素，相关模型在实际使用中仍面临诸多挑战。SoulX-Singer 的发布，恰恰提供了一个真正鲁棒、灵活可控且面向场景落地的零样本歌声合成方案，为歌声合成技术在用户原创音乐创作等方向的实践应用探索带来了积极意义。

SoulX-Singer 也延续了Soul AI团队的开源工作传统。此前，该团队已陆续开源了播客语音合成模型 SoulX-Podcast、实时数字人生成模型 SoulX-FlashTalk，在语音、歌声、实时数字人、视频等多个领域，提供了切实可用的多模态生成方案。

Soul X吉利AIC推三大零样本歌声合成技术：支持普通话、粤语与英语

相关推荐

同类最新

多点触控技术实际应用案例分享

MultiTouch多点触控全面教程指南：从入门到实际使用

Lily Camera无人机空中拍摄真实应用案例与心得分享

Lily相机使用中常见问题解决方法

Lily Camera从入门到实际使用的完整详细教程指南