近日,Soul App AI 团队(Soul AI Lab)正式开源了名为 SoulX-Podcast 的播客语音合成模型。这款模型专为多人多轮对话场景打造,支持中文、英文、川渝方言、粤语等多种语言和方言,具备多样化的语气风格选择,能够稳定生成超过 60 分钟、自然流畅、角色切换准确且韵律起伏丰富的多人语音对话。
除了在播客场景中表现突出之外,SoulX-Podcast 在通用语音合成和克隆场景下同样亮眼,为用户带来更加真实、生动的语音体验。

SoulX-Podcast 在通用 TTS 上的表现,*最新模型的复现结果
此次 SoulX-Podcast 的开源,是 Soul 在开源社区领域的一次全新尝试,也是一个新的起点。Soul 团队表示,未来将持续聚焦语音对话合成、全双工语音通话、拟人化表达、视觉交互等核心交互能力的提升,加速技术在多样化应用场景与整体生态中的融合落地,为用户带来更加沉浸、智能且富有温度的交互体验,持续提升个体的幸福感与归属感。同时,团队将进一步深化开源生态建设,与全球开发者携手,共同拓展 AI 语音等前沿能力的边界,探索“AI + 社交”的更多可能性。
