美团LongCat-AudioDiT突破零样本TTS音色克隆上限正式发布_AI热点日报

美团LongCat-AudioDiT突破零样本TTS音色克隆上限正式发布

类型：热点整理2026-07-05

美团LongCat团队推出LongCat-AudioDiT模型，用于零样本音色克隆。该模型摒弃传统梅尔谱中间表示，直接在波形潜空间采用扩散模型端到端建模，从根源阻断级联误差，显著提升音色还原度与自然度。

先讲一个核心判断：LongCat-AudioDiT的发布，让零样本音色克隆这个方向往前迈了一大步。美团LongCat团队这次搞出了点真东西——不再沿着传统TTS的老路走，而是直接绕开了梅尔谱这种中间表示，在波形潜空间里用扩散模型做端到端建模。说白了，就是让AI直接学声音本身的规律，而不是先翻译成频谱图再转回波形。这样一来，数据转换过程中最常见的“级联误差”就被彻底堵死了，音色克隆的还原度和自然度自然上了一个台阶。

核心要点

技术发布：美团LongCat团队正式推出LongCat-AudioDiT模型，聚焦零样本音色克隆。
架构创新：彻底抛弃了传统的梅尔谱（Mel-spectrogram）等中间表示环节。
建模路径：直接在波形潜空间（Waveform Latent Space）进行基于扩散模型（Diffusion Model）的建模。
核心优势：通过简化流程，从根源上阻断了数据转换带来的级联误差，提升了声音生成的质量。

详细分析

摒弃中间表示：跳过“翻译”误差

传统TTS系统里，文本要先转成梅尔谱图，再通过声码器还原成波形。每一步都是一次“翻译”，每次翻译都会丢点信息，小误差层层叠加，最后合成出来的声音就容易失真。LongCat-AudioDiT的关键突破在于，它让AI直接学会声音本身的底层规律，完全跳过了这个中间环节。直接在波形潜空间建模，相当于把声音特征从源到目标一路保持完整，就算面对从未见过的音色样本（零样本场景），也能做到极高保真度的克隆。

基于扩散模型的波形潜空间建模

扩散模型本身就以生成能力强和多样性好著称，而LongCat-AudioDiT把它用在了波形潜空间里，而不是传统的频谱空间——这是决定性的技术选择。在潜空间建模的好处是，模型不仅能捕捉那些细微到极致的音色特征，还能从容应对复杂声学环境（比如带点混响或背景噪声的参考音频）。只需要几秒钟的参考音频，模型就能精准提取出目标人物的声音特质，并高质量地复现出来。这种能力直接拉高了零样本TTS的技术天花板。

行业影响

LongCat-AudioDiT的发布，标志着语音合成正在从“特征工程”阶段真正迈向“纯粹的端到端学习”阶段。对AI行业来说，直接在波形潜空间建模这条思路，为长期以来困扰行业的音质损耗和克隆失真问题提供了一套全新的解决方案。落地到应用层面，这种技术会大幅提升个性化语音助手、影视内容配音以及虚拟人交互的真实感。美团技术团队这次拿出的成果，不仅展示了他们在音频生成领域的深厚积累，也等于给开源社区和工业界立了一个高保真语音合成的新标杆。

常见问题

什么是LongCat-AudioDiT中的“级联误差”？

简单说，级联误差就是TTS系统里“一步错，步步错”——文本到频谱、频谱到波形，每个转换环节都在丢信息，小错误越积越多，最终合成出来的声音就会走样。LongCat-AudioDiT的办法是，直接砍掉这些中间环节，在波形潜空间一步到位，误差累积的链条自然就断了。

为什么抛弃梅尔谱对音色克隆很重要？

梅尔谱确实是个好用的工具，但它本质上是有损压缩——把原始波形里的很多精细信息给简化了。抛弃梅尔谱，意味着AI能直接接触更接近原始波形的信息，那些藏在音色里的微小细节（比如气声、颤音、尾音收法）都能被更细腻地捕捉和还原。这对于零样本音色克隆来说，是质的提升。

LongCat-AudioDiT适用于哪些场景？

最适合那些“给几秒钟参考音频，就能生成同音色长文本语音”的场景，比如内容创作者做有声书、智能客服需要个性化声音、虚拟人实时交互等等。一句话，凡是需要高精度音色还原的零样本场景，这个模型都大有可为。

来源：https://aitoolly.com/zh/ai-news/article/2026-06-14-meituan-longcat-team-launches-longcat-audiodit-to-redefine-zero-shot-tts-voice-cloning-limits

LongCat

延伸阅读

补充最近整理过的热点入口。