小米 AI 实验室发布 ZipVoice 系列语音合成 TTS 模型，解决零样本语音合成痛点

首页/科技数码/文章详情

小米 AI 实验室发布 ZipVoice 系列语音合成 TTS 模型，解决零样本语音合成痛点

时间：2025-09-13 21:49

9 月 12 日消息，小米集团 AI 实验室今日宣布，旗下 Kaldi 团队上个月发布了基于 Flow Matching 架构的 ZipVoice 系列语音合成（TTS）模型，包括：ZipVoic

9 月 12 日消息，小米集团 AI 实验室今日宣布，旗下 Kaldi 团队上个月发布了基于 Flow Matching 架构的 ZipVoice 系列语音合成（TTS）模型，包括：

ZipVoice（零样本单说话人语音合成模型）

ZipVoice-Dialog（零样本对话语音合成模型）

据最新介绍，作为 zipformer 在语音生成任务上的应用和探索，ZipVoice 解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点，在轻量化建模和推理加速上取得了重要突破。

ZipVoice-Dialog 则解决了现有对话语音合成模型在稳定性和推理速度上的瓶颈，实现了又快又稳又自然的语音对话合成。

小米 AI 实验室发布 ZipVoice 系列语音合成 TTS 模型，解决零样本语音合成痛点

从小米最新获悉，ZipVoice 首次将原本为自动语音识别（ASR）设计的 Zipformer 架构引入 TTS 任务作为模型的骨干网络，Zipformer 中的三大设计：基于 U-Net 的多尺度高效率结构、卷积与注意力机制的协同处理、以及注意力权重的多次复用都高度适配语音合成任务，从而实现了语音合成模型的高效建模。

得益于这一设计，相比基于 DiT 的语音合成模型，在性能相似的情况下，ZipVoice 的参数量减少了约 63%。

小米 AI 实验室发布 ZipVoice 系列语音合成 TTS 模型，解决零样本语音合成痛点

性能方面，ZipVoice 和 ZipVoice-Distill 在具备更小参数量和更快推理速度的同时，在三个客观指标，即说话人相似度（SIM-o）、词错误率（WER）和 UTMOS，以及两个主观指标（CMOS、SMOS）上都极具竞争力，达到了零样本语音合成模型的 SOTA 性能水平，同时显著减少了模型参数量，加快了推理速度。

小米 AI 实验室发布 ZipVoice 系列语音合成 TTS 模型，解决零样本语音合成痛点