首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
LongCat-AudioDiT音色克隆技术突破零样本TTS上限

LongCat-AudioDiT音色克隆技术突破零样本TTS上限

热心网友
67
转载
2026-05-21
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

语音合成技术正经历一场深刻的范式转移。传统的主流语音生成方案通常采用“两步走”策略:先将音频压缩为梅尔频谱图等中间特征,再通过神经声码器将其还原为波形。这种多阶段处理不可避免地导致信息损耗与误差累积,使得合成语音丢失了细腻的音色细节与独特的个性化特征。

是否存在一种更直接的路径,让AI能够学习声音的本质,从而绕过这些中间环节呢?

针对这一核心挑战,美团LongCat团队正式推出了LongCat-AudioDiT。该模型的核心设计理念极为清晰:彻底摒弃梅尔频谱等中间表示,直接在波形数据的潜在空间中,基于扩散变换器(DiT)完成从文本到语音的端到端生成。这一根本性变革,从源头上避免了数据在多个处理阶段间传递所产生的级联误差。

此外,研究团队还实现了两项关键性优化:一是识别并修正了一个长期被忽略的“训练与推理过程不匹配”问题;二是采用自适应投影引导(APG)技术替代了传统的无分类器引导(CFG)。这两项改进协同发力,将最终语音生成的自然度与保真度提升到了新的高度。

实际性能表现如何?在权威的Seed基准测试中,LongCat-AudioDiT取得了当前最优的零样本语音克隆效果,同时在语音可懂度方面保持了顶尖竞争力。具体而言,其3.5B参数版本在Seed-ZH中文测试集上的说话人相似度(SIM)得分高达0.818,在Seed-Hard高难度测试集上也达到了0.797,综合表现超越了Seed-TTS、CosyVoice3.5、MiniMax-Speech等知名开源模型,有力验证了“波形潜空间直接生成”这一技术路线的巨大潜力。

目前,LongCat-AudioDiT(1B与3.5B版本)已全面开源,相关资源如下:

  • 论文地址: https://arxiv.org/abs/2603.29339v1
  • 代码仓库: https://github.com/meituan-longcat/LongCat-AudioDiT
  • 模型下载: https://huggingface.co/meituan-longcat/LongCat-AudioDiT

接下来,我们将深入解析这项TTS技术的核心创新与实现细节。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

一、架构革新:告别级联误差,直击波形本质

传统的TTS系统如同一个复杂的“传声筒”游戏:先预测梅尔频谱等中间声学特征,再交由独立的神经声码器“翻译”回波形。这种在不同表征空间接力传递信息的方式,必然导致误差累积,最终使得合成语音损失高保真细节与个性化音色——而这正是零样本语音克隆任务最需要保留的核心要素。

LongCat-AudioDiT的架构设计回归本源,追求极简:仅使用一个波形变分自编码器(Wa v-VAE)和一个扩散变换器(DiT),在统一的波形隐空间内一站式完成音频的压缩、建模与重建。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

图1:LongCat-AudioDiT整体架构示意图

1. 波形变分自编码器(Wa v-VAE):构建高质量的音频潜空间

Wa v-VAE是一个全卷积的音频自编码器,其核心任务是将原始波形数据压缩为紧凑、连续的隐向量。其设计蕴含了多项精妙构思:

  • 高效下采样与多尺度建模:编码器通过多层Oobleck模块实现层级下采样,每个模块内部堆叠了带空洞卷积的残差单元,能够同步捕获从局部细节到全局结构的时序依赖关系。最终,它将24kHz采样率的波形压缩至约11.7Hz的帧率,压缩比超过2000倍。
  • 非参数捷径稳定训练:为了在如此激进的下采样过程中确保训练稳定性,每个编码器与解码器模块都引入了非参数的“空间到通道”或“通道到空间”捷径分支。这为梯度回传提供了直接的线性通路,显著提升了模型收敛的稳定性与效率。
  • 对抗式多目标联合训练:Wa v-VAE的优化目标是一套组合策略,融合了多分辨率STFT损失、多尺度梅尔损失、时域L1重建损失、KL散度正则项,以及基于多尺度STFT判别器的对抗损失和特征匹配损失。这套综合方案确保了重建波形既能保持精确的时频结构,又具备自然流畅的听觉体验。
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

2. 扩散变换器(DiT):在潜空间中学习条件流匹配

在构建了高质量的隐空间之后,DiT模型便在其中学习条件流匹配。文本编码方面,模型采用了支持107种语言的UMT5作为文本编码器。研究中的一个关键发现是:如果仅使用编码器最后一层的抽象语义表示,模型无法生成清晰可懂的语音。原因在于,过高的语义抽象层级丢失了至关重要的词法与音素线索。

为此,团队创新性地将原始的词嵌入向量(第一层输出)与最后一层的隐藏状态进行相加,经过层归一化平衡尺度后送入后续模块。这种“底层细节与高层语义相结合”的策略,显著提升了合成语音的可懂度。此外,还引入了轻量级的ConvNeXt V2序列模块对文本表征进行细化,加速了文本与语音特征的对齐收敛过程。

DiT的主干网络基于Transformer架构,并集成了多项结构优化技术:

  • 全局自适应层归一化(Global AdaLN):用于注入扩散时间步信息,并通过全局共享的AdaLN模块有效减少模型参数量。
  • QK-Norm结合RoPE:稳定注意力机制的训练过程,同时利用旋转位置编码来有效捕捉序列中的相对位置关系。
  • 长跳跃连接:将模块输入直接添加到输出,在实验中带来了稳定的性能提升。
  • 表征对齐预训练(REPA):借助mHuBERT模型的自监督特征来引导DiT中间层的表示学习,虽不直接提升最终生成质量,但能显著加速模型收敛速度。
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

二、推理优化:提升生成路径的精度与输出质量

如果说波形潜空间架构解决了“在哪里建模”的问题,那么对推理过程的两项关键改进,则从根本上优化了“如何生成”的路径精度与输出纯度。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

1. 破解训练与推理不匹配的难题

团队首次发现并解决了流匹配TTS中一个长期存在的隐患:训练目标与推理过程的不一致性。在标准的条件流匹配训练框架中,模型损失仅针对需要生成的掩码区域进行计算,而作为音色条件的音频提示区域并不参与优化。然而在推理时,这些提示区域的隐变量却会沿着扩散ODE自由演化,导致其分布逐渐偏离训练时所见的约束,最终引发合成语音的说话人音色漂移和稳定性下降。

解决方案是引入双重约束机制:

  1. 提示区域隐变量强制重置:在每一步推理迭代中,严格将提示区域的隐变量重置为其理论真值,确保其演化轨迹始终与训练分布保持一致,为生成部分提供稳定、纯净的声学条件。
  2. 无条件预测净化:在计算无条件速度场时,完全移除提示区域的隐变量输入,从而计算出准确的无条件速度估计,避免条件信息泄漏干扰生成过程。
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

2. 自适应投影引导(APG):从“粗放放大”到“精准筛选”

传统的无分类器引导通过放大条件预测与无条件预测之间的差异来提升生成质量,但其副作用明显:引导强度过大会导致频谱“过饱和”,进而引发音质劣化、语音不自然等问题。

自适应投影引导采用了不同的思路:它认为引导信号中真正有益的部分与引发劣化的部分,在几何空间上是正交的。APG技术将引导信号分解为平行与正交两个分量,选择性地保留正交的有益部分,同时抑制平行的劣化部分。简而言之,CFG是“粗放式放大”,而APG是“精准化筛选”。这两项推理优化技术协同作用,在维持高说话人相似度的同时,显著提升了生成语音的自然度与声学质量。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

三、实验洞察:在保真度与泛化性间寻求平衡

在Wa v-VAE的实验过程中,团队观察到一个反直觉的现象:VAE的重建质量并非越高越好。盲目追求极高的重建分数会导致潜空间维度膨胀、信息过于稠密,反而使得下游的扩散模型难以有效学习,导致综合生成性能下降。

为了找到最佳平衡点,团队系统性地对比了不同潜在变量维度与帧率配置。最终确定的最优配置为:64维潜在变量搭配11.7Hz帧率。这一配置既为生成模型保留了充足的学习空间,又捕捉了必要的声学细节,实现了重建保真度与生成泛化能力之间的最佳权衡。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

图2:不同潜变量维度下Wa v-VAE重建与TTS合成的客观评估结果对比

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

四、性能表现:领先的相似度与稳健的可懂度

在Seed基准测试中,LongCat-AudioDiT与SeedTTS、CosyVoice3.5、MiniMax-Speech等业界主流模型进行了全面对比。结果表明,其在说话人相似度方面取得了SOTA(当前最优)性能,同时在语音可懂度指标上保持了顶尖竞争力。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

图3:LongCat-AudioDiT 在 Seed 基准测试中的综合表现

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

说话人相似度(SIM)评测

  • 中文测试集(Seed-ZH): LongCat-AudioDiT-3.5B 取得了0.818的相似度分数,超越了此前SOTA模型Seed-DiT的0.809。
  • 中文难句测试集(Seed-Hard): LongCat-AudioDiT-3.5B 取得了0.797的SOTA分数,展现了强大的音色克隆鲁棒性。
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

可懂度(CER/WER)评测

  • 中文字符错误率(CER): LongCat-AudioDiT-1.1B 为1.18%,3.5B版本进一步降低至1.09%。在非自回归TTS模型中表现极为出色。
  • 英文词错误率(WER): 两个版本分别为1.78%和1.50%。其中3.5B版本的1.50%达到了所有参评模型中的第二低错误率,证明了其优秀的英文文本转语音准确性。
  • 中文难句CER: LongCat-AudioDiT-3.5B 取得了6.04%的成绩,相比于同样基于扩散模型的F5 TTS(8.67%),错误率显著降低,表现出良好的稳定性。

模型在语音可懂度指标上保持了第一梯队的水平,并未为了追求极高的音色相似度而牺牲清晰度。值得注意的是,LongCat-AudioDiT并未依赖高质量的人工标注数据或多阶段复杂训练流程,仅通过ASR转写的预训练数据和单阶段预训练,就取得了比多阶段训练的Seed-TTS、CosyVoice3.5等模型更优的综合表现。

总而言之,LongCat-AudioDiT凭借其卓越的说话人相似度和稳健的语音可懂度,在零样本语音克隆任务中展现出强大的综合竞争力与实用性。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

试听样例

中文样例:
(此处保留原音频组件,内容为中文case1、case2、case3)

中文难句样例:
(此处保留原音频组件,内容为中文高难度case1、case2、case3)

英文样例:
(此处保留原音频组件,内容为英文case1、case2、case3)

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

结语

LongCat-AudioDiT以其极简的架构和纯粹的波形潜空间建模范式证明,绕过中间声学特征的扩散TTS路线不仅可行,更能达到业界领先水平。这套“波形隐空间端到端生成”的设计思想,为未来高保真语音合成乃至更广阔的多模态音频生成领域,提供了新的技术思路与扎实的工程基础。

目前,LongCat-AudioDiT模型(1B与3.5B参数版本)已全部开源,期待与广大开发者及研究人员共同探索,推动语音生成与音色克隆技术的持续进步。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术
来源:https://mp.weixin.qq.com/s/YaU20XkTSSYXZ4YTJ22PWg
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

驱神大殿自选配饰掉落种族选择推荐
游戏攻略
驱神大殿自选配饰掉落种族选择推荐

驱神大殿自选配饰需结合队伍需求选择:人族强化控制,适配控制流;魔族提升速度或防御,适合敏队或生存队;仙族与龙族分别增强法术与物理输出,是核心火力;鬼族侧重生存辅助,为持久战基石。应根据队伍短板、当前目标及版本环境,追求直接战力提升。

热心网友
05.20
心魔副本1至10关通关攻略与每周奖励详解
游戏攻略
心魔副本1至10关通关攻略与每周奖励详解

心魔副本前10关通关需属性达标与合理挂机。优先提升攻击、防御、生命值等基础属性,并优化技能循环与自动补给设置。关卡难度递增,需注意精英怪技能与BOSS机制。充分准备后,挂机即可轻松过关。

热心网友
05.20
双套装系统本周维护优化内容详解
游戏攻略
双套装系统本周维护优化内容详解

双套装系统本周维护后优化了操作流畅度,套装切换判定更清晰,减少了误触发。界面提示与状态标识更直观,便于快速识别生效装备。系统便利性提升后,装备搭配策略深度进一步凸显,玩家可探索爆发续航组合或特化配置,开发多样玩法思路。

热心网友
05.20
郭老板终极技能免费获取方法详解
游戏攻略
郭老板终极技能免费获取方法详解

玩家分享多张游戏惊喜截图。郭老板贺礼开出终极技能,极大限制对手机动性。五连操作属性搭配极佳,堪称运气天花板。精鉴配饰时意外获得两个无价品质。召唤兽一手炼化出三条高速属性,成为PK战略利器。每张图都展现了游戏中的心跳时刻。

热心网友
05.20
南斗星象高分通关攻略 挂机也能轻松过关
游戏攻略
南斗星象高分通关攻略 挂机也能轻松过关

南斗星象玩法中,挂机刷分需构建自动循环且兼顾生存与输出的体系。技能应优先选择自动追踪、范围伤害及护盾回复类,属性需平衡生存与输出。应对天相星关卡时,需有节奏移动规避技能并快速清理召唤的小怪,可微调技能增加机动性或爆发力。理解规则并优化搭配是轻松通关的关键。

热心网友
05.20

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

AI数据分析革命:表格合并的未来趋势与高效方法
AI教程
AI数据分析革命:表格合并的未来趋势与高效方法

人工智能正改变表格合并方式,大幅提升数据处理效率。例如,某电商平台借助AI将处理时间从48小时缩短至2小时,并减少人工错误。调查显示,超七成企业已部署AI工具且效率显著提升。AI不仅节约成本,还推动决策更科学。未来需在效率与数据安全间寻求平衡。

热心网友
05.21
AI智能表格如何突破传统局限实现高效数据处理
AI教程
AI智能表格如何突破传统局限实现高效数据处理

在数据爆炸时代,AI正为传统表格处理带来变革。通过自动生成图表、快速分析趋势等功能,AI显著提升了数据处理效率。然而,数据安全与隐私风险仍是企业关注的核心挑战。未来,表格将趋向智能化与自适应,成为更高效、用户友好的分析工具,为企业创造新的机遇。

热心网友
05.21
AI在表格处理领域的应用优势与挑战分析
AI教程
AI在表格处理领域的应用优势与挑战分析

AI技术正深度改变表格处理领域,通过自动化数据整理、智能预测分析和增强实时协作显著提升效率。然而,数据隐私安全与算法“黑箱”问题仍是主要挑战。企业需优先考虑数据保护与算法透明度,未来结合自然语言处理的新一代工具将进一步简化表格工作,带来更多可能性。

热心网友
05.21
AI表格制作技巧如何高效制作专业数据图表
AI教程
AI表格制作技巧如何高效制作专业数据图表

AI工具显著提升了表格制作效率与数据呈现效果。它能通过自然语言生成框架、自动分析趋势,将原本耗时的手工流程大幅压缩。不同工具各有侧重,需结合实际需求选择。未来,AI将与深度分析更紧密结合,实现智能洞察输出。主动拥抱技术革新,才能提升数据竞争力。

热心网友
05.21
数字化时代AI如何革新表格输入方式与操作体验
AI教程
数字化时代AI如何革新表格输入方式与操作体验

人工智能正革新表格处理,通过OCR与自然语言技术自动识别提取数据,大幅提升录入效率。实践显示,AI在订单处理等重复任务中效果显著,减轻人力负担。未来需兼顾数据安全与工具易用性,推动人机协同——AI负责规则性工作,人类聚焦创造性决策。

热心网友
05.21