近期,Soul App的AI团队Soul AI Lab宣布开源其实时数字人生成模型SoulX-FlashTalk。该模型实现了0.87秒的亚秒级超低延迟与32fps的高帧率生成,并支持超长视频的稳定输出,成为首个具备此能力的14B参数数字人模型。
在持续构建AI能力的过程中,Soul团队始终致力于通过技术创新,为用户带来更沉浸、更多元的交互体验。此次开源的新模型,不仅在生成速度、视觉效果、延迟控制和保真度上表现卓越,更重要的是,它为行业提供了切实可行的业务解决方案,推动大参数量实时生成式数字人迈入可具体商用的落地阶段。

依托模型优越的性能表现,开源后,SoulX-FlashTalk将有机会在更多领域和行业实际场景中落地,创造更大价值。例如,在电商领域打造7×24小时AI直播间。特别值得指出的是,传统数字人直播在长时间运行后,常会出现口型对不上或画质模糊的问题,而SoulX-FlashTalk能够支持全天候的流畅视频直播,即便是在高强度的实时互动中(如回复弹幕),也能保持如真人出镜般的高保真画质,极大降低直播运营成本。
此外,在短视频制作、AI教育、多元互动场景NPC交互、AI客服等方向,该模型也提供了高质量、可落地、可接入业务系统的成熟解决方案。
对Soul而言,SoulX-FlashTalk的发布也标志着团队进入了开源协作的新阶段。去年10月底,Soul AI团队开源了语音合成模型SoulX-Podcast,发布后迅速登上开源社区平台HuggingFace的TTS趋势榜。目前,该模型在GitHub上已收获超过3100颗星标。
接下来,在聚焦语音对话合成、视觉交互等核心交互能力提升,为用户带来更加沉浸、智能且富有温度的交互体验的过程中,Soul将以持续推进开源工作为契机,积极与全球开发者携手,共建生态,为推动“AI+社交”前沿能力建设贡献力量。
