当前位置: 首页 > 科技 > 文章内容页

微软开源VibeVoice-1.5B音频模型:支持中文生成,90分钟4人对话语音一键合成

时间:2025-08-28    作者:游乐小编    

8月27日消息,科技媒体marktechpost在8月25日发布报道称,微软正式推出开源文本转语音(TTS)模型VibeVoice-1.5B。该模型具备多项突破性能力,可一次性生成最长90分钟、最多支持4位不同说话者的自然语音,并具备跨语言合成与歌声生成功能。

从架构设计来看,VibeVoice-1.5B基于参数量达15亿的Qwen2.5语言模型构建,创新性地融合了声学与语义双分词器(Tokenizer),能够以低至7.5Hz的帧率高效处理语音数据。

播客神器:微软开源

其声学分词器采用σ-VAE结构,可将24kHz原始音频压缩至原本的1/3200;语义分词器则借助语音识别代理任务进行训练,更好地保留语义信息。在解码端,模型使用1.23亿参数的扩散解码器,结合分类器自由引导与DPM-Solver算法,显著提升语音质量和细节还原能力。

播客神器:微软开源

为确保生成长篇语音时的连贯性与说话人一致性,该模型在训练中逐步扩展上下文长度,从4k扩展至65k Tokens。其架构天然支持多说话人轮流发言,可模拟真实对话场景,并具备流式生成长音频的能力,为未来实现实时TTS应用打下基础。

不过VibeVoice-1.5B目前仍存在一些限制。它仅支持英语和中文,其他语言的合成效果可能不够准确;无法处理说话人语音重叠,也不支持背景音效或音乐的生成。微软特别强调,禁止将该模型用于声音冒充、虚假信息传播或身份验证绕过等用途,并呼吁用户遵守法律法规,明确标注AI生成内容来源。

微软表示,该模型主要面向科研与开发者社区,适用于播客制作、对话式AI、语音内容生成等场景。未来计划推出参数量更大的7B版本,进一步提升实时合成的响应速度与音质表现,拓宽其应用边界。

附参考地址:
微软VibeVoice-1.5B技术报告
Hugging Face
GitHub

热门推荐

更多

热门文章

更多

首页  返回顶部

本站所有软件都由网友上传,如有侵犯您的版权,请发邮件youleyoucom@outlook.com