美团LongCat-AudioDiT抛弃梅尔谱实现波形潜空间TTS新突破_AI热点日报

美团LongCat-AudioDiT抛弃梅尔谱实现波形潜空间TTS新突破

类型：热点整理2026-07-01

美团LongCat团队近期释放出一项重磅技术成果：LongCat-AudioDiT模型正式发布，其核心目标是进一步突破零样本TTS音色克隆的性能上限。该模型最具颠覆性的创新在于，彻底放弃了梅尔谱图等传统中间表征，直接在波形潜空间中运用扩散模型实现文本到语音（TTS）的生成。简而言之，就是让AI直接学

美团LongCat团队近期释放出一项重磅技术成果：LongCat-AudioDiT模型正式发布，其核心目标是进一步突破零样本TTS音色克隆的性能上限。该模型最具颠覆性的创新在于，彻底放弃了梅尔谱图等传统中间表征，直接在波形潜空间中运用扩散模型实现文本到语音（TTS）的生成。简而言之，就是让AI直接学习和理解声音的物理本质，从根本上杜绝数据转换环节中产生的级联误差。这为语音合成领域开辟了一条全新的技术路径。

核心要点

技术发布：美团LongCat团队正式推出LongCat-AudioDiT模型，专注于提升零样本TTS音色克隆的效果与精度。
架构创新：完全舍弃梅尔谱（Mel-spectrogram）等中间表示，跳过了传统语音合成中的冗余中间环节。
核心机制：在波形潜空间内直接执行基于扩散模型（Diffusion Transformer）的语音生成流程。
主要优势：减少转换步骤，有效阻断数据转换过程中的级联误差，使AI能够直接掌握声音的内在规律。

详细分析

告别梅尔谱：从根源解决级联误差

传统TTS技术路径中，梅尔谱图一直扮演着重要的中间角色。但问题在于，这种多环节的转换过程容易引入级联误差，最终合成出来的声音在真实度和细节上总会打些折扣。美团LongCat团队这次做了一个相当大胆的决定——彻底放弃梅尔谱。让AI直接去学习声音本身的物理规律，跳过那些复杂的中间转换步骤，从源头上避免了信息的丢失与失真。这招釜底抽薪，确实是一种极为彻底的解决思路。

波形潜空间与扩散模型的融合

LongCat-AudioDiT真正的核心竞争力，在于它在波形潜空间（Waveform Latent Space）中的建模能力。模型采用了先进的AudioDiT扩散架构，将文本信息直接转化为高质量的音频波形。这种直接在潜空间进行建模的方式，不仅显著提升了语音生成的效率，更重要的是突破了零样本音色克隆的技术天花板。这意味着，AI无需依赖特定音色的大规模训练数据，仅需极短的参考音频样本，就能实现高度自然的声音克隆——堪称将“声音克隆艺术”推向了新的高度。

行业影响

LongCat-AudioDiT的发布，标志着语音合成技术正从“表征驱动”向“原生波形驱动”转型。对于整个AI行业而言，这种直接在波形潜空间建模的方法，为长期困扰业界的音质损耗问题提供了全新的解决思路。随着级联误差被消除，零样本语音克隆的应用门槛将进一步降低，同时还原度和自然度将持续提升。可以预见，智能客服、个性化语音助手、内容创作等领域的底层技术能力，都将因此迎来一轮显著升级。

常见问题

问题 1：LongCat-AudioDiT与传统TTS模型最大的区别是什么？

答：最大的区别在于它彻底抛弃了梅尔谱等中间表示，不再走“文本→梅尔谱→波形”的阶梯式转换路线，而是直接在波形潜空间进行扩散生成，从而避免了转换过程中的误差累积。

问题 2：为什么直接学习声音规律对音色克隆很重要？

答：直接学习声音规律能让AI更精准地捕捉音频的细微特征。中间环节越少，模型就能保留更多原始音色的特质，在零样本场景下实现更高精度的音色还原。

问题 3：该技术主要解决的是什么痛点？

答：主要解决了传统TTS在数据转换过程中产生的级联误差问题，以及零样本音色克隆中还原度不够高、声音不够自然的技术瓶颈。

来源：https://aitoolly.com/zh/ai-news/article/2026-06-30-meituan-longcat-team-unveils-longcat-audiodit-revolutionizing-zero-shot-tts-voice-cloning-via-wavefo

LongCat

延伸阅读

补充最近整理过的热点入口。