LongCat-AudioDiT音色克隆技术突破零样本TTS上限_AI热点日报

LongCat-AudioDiT音色克隆技术突破零样本TTS上限

类型：热点整理2026-05-21

语音合成技术正经历一场深刻的范式转移。传统的主流语音生成方案通常采用“两步走”策略：先将音频压缩为梅尔频谱图等中间特征，再通过神经声码器将其还原为波形。这种多阶段处理不可避免地导致信息损耗与误差累积，使得合成语音丢失了细腻的音色细节与独特的个性化特征。是否存在一种更直接的路径，让AI能够学习声音的

语音合成技术正经历一场深刻的范式转移。传统的主流语音生成方案通常采用“两步走”策略：先将音频压缩为梅尔频谱图等中间特征，再通过神经声码器将其还原为波形。这种多阶段处理不可避免地导致信息损耗与误差累积，使得合成语音丢失了细腻的音色细节与独特的个性化特征。

是否存在一种更直接的路径，让AI能够学习声音的本质，从而绕过这些中间环节呢？

针对这一核心挑战，美团LongCat团队正式推出了LongCat-AudioDiT。该模型的核心设计理念极为清晰：彻底摒弃梅尔频谱等中间表示，直接在波形数据的潜在空间中，基于扩散变换器（DiT）完成从文本到语音的端到端生成。这一根本性变革，从源头上避免了数据在多个处理阶段间传递所产生的级联误差。

此外，研究团队还实现了两项关键性优化：一是识别并修正了一个长期被忽略的“训练与推理过程不匹配”问题；二是采用自适应投影引导（APG）技术替代了传统的无分类器引导（CFG）。这两项改进协同发力，将最终语音生成的自然度与保真度提升到了新的高度。

实际性能表现如何？在权威的Seed基准测试中，LongCat-AudioDiT取得了当前最优的零样本语音克隆效果，同时在语音可懂度方面保持了顶尖竞争力。具体而言，其3.5B参数版本在Seed-ZH中文测试集上的说话人相似度（SIM）得分高达0.818，在Seed-Hard高难度测试集上也达到了0.797，综合表现超越了Seed-TTS、CosyVoice3.5、MiniMax-Speech等知名开源模型，有力验证了“波形潜空间直接生成”这一技术路线的巨大潜力。

目前，LongCat-AudioDiT（1B与3.5B版本）已全面开源，相关资源如下：

论文地址： https://arxiv.org/abs/2603.29339v1
代码仓库： https://github.com/meituan-longcat/LongCat-AudioDiT
模型下载： https://huggingface.co/meituan-longcat/LongCat-AudioDiT

接下来，我们将深入解析这项TTS技术的核心创新与实现细节。

一、架构革新：告别级联误差，直击波形本质

传统的TTS系统如同一个复杂的“传声筒”游戏：先预测梅尔频谱等中间声学特征，再交由独立的神经声码器“翻译”回波形。这种在不同表征空间接力传递信息的方式，必然导致误差累积，最终使得合成语音损失高保真细节与个性化音色——而这正是零样本语音克隆任务最需要保留的核心要素。

LongCat-AudioDiT的架构设计回归本源，追求极简：仅使用一个波形变分自编码器（Wa v-VAE）和一个扩散变换器（DiT），在统一的波形隐空间内一站式完成音频的压缩、建模与重建。

图1：LongCat-AudioDiT整体架构示意图

1. 波形变分自编码器（Wa v-VAE）：构建高质量的音频潜空间

Wa v-VAE是一个全卷积的音频自编码器，其核心任务是将原始波形数据压缩为紧凑、连续的隐向量。其设计蕴含了多项精妙构思：

高效下采样与多尺度建模：编码器通过多层Oobleck模块实现层级下采样，每个模块内部堆叠了带空洞卷积的残差单元，能够同步捕获从局部细节到全局结构的时序依赖关系。最终，它将24kHz采样率的波形压缩至约11.7Hz的帧率，压缩比超过2000倍。
非参数捷径稳定训练：为了在如此激进的下采样过程中确保训练稳定性，每个编码器与解码器模块都引入了非参数的“空间到通道”或“通道到空间”捷径分支。这为梯度回传提供了直接的线性通路，显著提升了模型收敛的稳定性与效率。
对抗式多目标联合训练：Wa v-VAE的优化目标是一套组合策略，融合了多分辨率STFT损失、多尺度梅尔损失、时域L1重建损失、KL散度正则项，以及基于多尺度STFT判别器的对抗损失和特征匹配损失。这套综合方案确保了重建波形既能保持精确的时频结构，又具备自然流畅的听觉体验。

2. 扩散变换器（DiT）：在潜空间中学习条件流匹配

在构建了高质量的隐空间之后，DiT模型便在其中学习条件流匹配。文本编码方面，模型采用了支持107种语言的UMT5作为文本编码器。研究中的一个关键发现是：如果仅使用编码器最后一层的抽象语义表示，模型无法生成清晰可懂的语音。原因在于，过高的语义抽象层级丢失了至关重要的词法与音素线索。

为此，团队创新性地将原始的词嵌入向量（第一层输出）与最后一层的隐藏状态进行相加，经过层归一化平衡尺度后送入后续模块。这种“底层细节与高层语义相结合”的策略，显著提升了合成语音的可懂度。此外，还引入了轻量级的ConvNeXt V2序列模块对文本表征进行细化，加速了文本与语音特征的对齐收敛过程。

DiT的主干网络基于Transformer架构，并集成了多项结构优化技术：

全局自适应层归一化（Global AdaLN）：用于注入扩散时间步信息，并通过全局共享的AdaLN模块有效减少模型参数量。
QK-Norm结合RoPE：稳定注意力机制的训练过程，同时利用旋转位置编码来有效捕捉序列中的相对位置关系。
长跳跃连接：将模块输入直接添加到输出，在实验中带来了稳定的性能提升。
表征对齐预训练（REPA）：借助mHuBERT模型的自监督特征来引导DiT中间层的表示学习，虽不直接提升最终生成质量，但能显著加速模型收敛速度。

二、推理优化：提升生成路径的精度与输出质量

如果说波形潜空间架构解决了“在哪里建模”的问题，那么对推理过程的两项关键改进，则从根本上优化了“如何生成”的路径精度与输出纯度。

1. 破解训练与推理不匹配的难题

团队首次发现并解决了流匹配TTS中一个长期存在的隐患：训练目标与推理过程的不一致性。在标准的条件流匹配训练框架中，模型损失仅针对需要生成的掩码区域进行计算，而作为音色条件的音频提示区域并不参与优化。然而在推理时，这些提示区域的隐变量却会沿着扩散ODE自由演化，导致其分布逐渐偏离训练时所见的约束，最终引发合成语音的说话人音色漂移和稳定性下降。

解决方案是引入双重约束机制：

提示区域隐变量强制重置：在每一步推理迭代中，严格将提示区域的隐变量重置为其理论真值，确保其演化轨迹始终与训练分布保持一致，为生成部分提供稳定、纯净的声学条件。
无条件预测净化：在计算无条件速度场时，完全移除提示区域的隐变量输入，从而计算出准确的无条件速度估计，避免条件信息泄漏干扰生成过程。

2. 自适应投影引导（APG）：从“粗放放大”到“精准筛选”

传统的无分类器引导通过放大条件预测与无条件预测之间的差异来提升生成质量，但其副作用明显：引导强度过大会导致频谱“过饱和”，进而引发音质劣化、语音不自然等问题。

自适应投影引导采用了不同的思路：它认为引导信号中真正有益的部分与引发劣化的部分，在几何空间上是正交的。APG技术将引导信号分解为平行与正交两个分量，选择性地保留正交的有益部分，同时抑制平行的劣化部分。简而言之，CFG是“粗放式放大”，而APG是“精准化筛选”。这两项推理优化技术协同作用，在维持高说话人相似度的同时，显著提升了生成语音的自然度与声学质量。

三、实验洞察：在保真度与泛化性间寻求平衡

在Wa v-VAE的实验过程中，团队观察到一个反直觉的现象：VAE的重建质量并非越高越好。盲目追求极高的重建分数会导致潜空间维度膨胀、信息过于稠密，反而使得下游的扩散模型难以有效学习，导致综合生成性能下降。

为了找到最佳平衡点，团队系统性地对比了不同潜在变量维度与帧率配置。最终确定的最优配置为：64维潜在变量搭配11.7Hz帧率。这一配置既为生成模型保留了充足的学习空间，又捕捉了必要的声学细节，实现了重建保真度与生成泛化能力之间的最佳权衡。

图2：不同潜变量维度下Wa v-VAE重建与TTS合成的客观评估结果对比

四、性能表现：领先的相似度与稳健的可懂度

在Seed基准测试中，LongCat-AudioDiT与SeedTTS、CosyVoice3.5、MiniMax-Speech等业界主流模型进行了全面对比。结果表明，其在说话人相似度方面取得了SOTA（当前最优）性能，同时在语音可懂度指标上保持了顶尖竞争力。

图3：LongCat-AudioDiT 在 Seed 基准测试中的综合表现

说话人相似度（SIM）评测

中文测试集（Seed-ZH）： LongCat-AudioDiT-3.5B 取得了0.818的相似度分数，超越了此前SOTA模型Seed-DiT的0.809。
中文难句测试集（Seed-Hard）： LongCat-AudioDiT-3.5B 取得了0.797的SOTA分数，展现了强大的音色克隆鲁棒性。

可懂度（CER/WER）评测

中文字符错误率（CER）： LongCat-AudioDiT-1.1B 为1.18%，3.5B版本进一步降低至1.09%。在非自回归TTS模型中表现极为出色。
英文词错误率（WER）： 两个版本分别为1.78%和1.50%。其中3.5B版本的1.50%达到了所有参评模型中的第二低错误率，证明了其优秀的英文文本转语音准确性。
中文难句CER： LongCat-AudioDiT-3.5B 取得了6.04%的成绩，相比于同样基于扩散模型的F5 TTS（8.67%），错误率显著降低，表现出良好的稳定性。

模型在语音可懂度指标上保持了第一梯队的水平，并未为了追求极高的音色相似度而牺牲清晰度。值得注意的是，LongCat-AudioDiT并未依赖高质量的人工标注数据或多阶段复杂训练流程，仅通过ASR转写的预训练数据和单阶段预训练，就取得了比多阶段训练的Seed-TTS、CosyVoice3.5等模型更优的综合表现。

总而言之，LongCat-AudioDiT凭借其卓越的说话人相似度和稳健的语音可懂度，在零样本语音克隆任务中展现出强大的综合竞争力与实用性。

试听样例

中文样例：
（此处保留原音频组件，内容为中文case1、case2、case3）

中文难句样例：
（此处保留原音频组件，内容为中文高难度case1、case2、case3）

英文样例：
（此处保留原音频组件，内容为英文case1、case2、case3）

结语

LongCat-AudioDiT以其极简的架构和纯粹的波形潜空间建模范式证明，绕过中间声学特征的扩散TTS路线不仅可行，更能达到业界领先水平。这套“波形隐空间端到端生成”的设计思想，为未来高保真语音合成乃至更广阔的多模态音频生成领域，提供了新的技术思路与扎实的工程基础。

目前，LongCat-AudioDiT模型（1B与3.5B参数版本）已全部开源，期待与广大开发者及研究人员共同探索，推动语音生成与音色克隆技术的持续进步。

来源：https://mp.weixin.qq.com/s/YaU20XkTSSYXZ4YTJ22PWg

其他

延伸阅读

补充最近整理过的热点入口。