游乐游手机版
首页/业界动态/文章详情

美团开源LongCat-AudioDiT 首创波形建模刷新音色克隆SOTA

时间:2026-04-22 17:39
音频生成迈入端到端时代:美团开源LongCat-AudioDiT,刷新音色克隆SOTA 2026年4月2日,美团旗下的LongCat团队做了一件让行业瞩目的事:他们正式发布并开源了全新的端到端音频生成模型——LongCat-AudioDiT,直接提供了1B和3 5B两个参数版本供选用。这次发布,可不

音频生成迈入端到端时代:美团开源LongCat-AudioDiT,刷新音色克隆SOTA

2026年4月2日,美团旗下的LongCat团队做了一件让行业瞩目的事:他们正式发布并开源了全新的端到端音频生成模型——LongCat-AudioDiT,直接提供了1B和3.5B两个参数版本供选用。这次发布,可不是简单的参数堆叠,而是一次架构上的“破与立”。这个模型最大的亮点,在于它彻底抛弃了传统TTS系统依赖的梅尔频谱中间表征,首创了直接在波形潜空间建模的架构。它搭载的全卷积Wa v-VAE,能把24kHz的高清波形压缩整整2000倍,帧率低至11.7Hz,从而大幅削减了信息在传递过程中的损耗与误差积累。正是这套底层革新,让它成功刷新了零样本音色克隆的性能纪录,拿下了当前的SOTA。

话说回来,最近这两年,音频生成技术正处在一个关键的转折点上:行业共识是,从多阶段的级联架构全面转向端到端架构,已经是大势所趋。传统TTS那套沿用多年的“先预测声学特征,再用神经声码器合成”的流水线,虽然经典,但如今已然成了音色还原度和生成效率进一步提升的核心瓶颈。

问题出在哪里?传统方案普遍依赖梅尔频谱这个“中间商”。流程上需要先把文本转成梅尔频谱,再把这个频谱转成最终音频。这个过程中,前后两个步骤产生的误差会层层叠加、不断放大。尤其是在对精度要求极高的零样本音色克隆场景下,传统方法就更容易露怯了——音色走样、咬字含混、情感干瘪,这些毛病屡见不鲜。即便投入大量精力反复调优,性能天花板也清晰可见,根本无法满足虚拟人、智能客服等新兴应用对音色保真度近乎苛刻的要求。

那么,LongCat-AudioDiT是如何破局的呢?答案很简单,却又很彻底:它完全绕开了梅尔频谱这个中间环节。整个模型由Wa v-VAE和DiT两大核心组件构成,架构极为简洁,实现了真正的端到端。它直接在波形潜空间里完成所有建模工作,这相当于重构了音频生成的底层逻辑。

具体来看,其中那个高效的Wa v-VAE采用了全卷积设计,为实现2000倍的极高压缩比立下了汗马功劳。更巧妙的是,它通过引入非参数化的捷径分支并结合多目标对抗训练,确保了重建后的波形质量。这意味着,压缩后的表征既精准保留了原始的时频结构,又能让最终生成的音频拥有接近真人发音的自然听感。从公开的测试数据来看,该模型在零样本音色相似度和自然度这两项核心指标上,均已超越现有同类模型,取得了当前行业的最佳成绩。目前开源的1B和3.5B两个版本,也经过了精心设计,可以分别适配端侧轻量化部署和云端高精度生成等不同的实际场景需求。

将视线拉回美团自身的业务生态,这项技术带来的价值是立竿见影的。更高精度的零样本音色克隆能力,意味着可以快速为骑手智能助手、商家客服系统、配送节点语音播报等众多场景,批量定制出各具特色的专属音色。这不仅能大幅降低语音交互功能的开发与定制成本,更能显著提升C端用户在每一次交互中的聆听体验。

当然,技术开源的意义远不止于此。当这项能力开放给业界,其影响力将迅速扩散至有声书制作、虚拟人语音驱动、智能硬件语音助手等多个领域。它极大地降低了中小型团队研发高性能音频生成模型的门槛,有望从整体上推动音频生成行业的技术性能向新的台阶迈进。

来源:https://cxgn.cn/11472.html
上一篇字节跳动豆包大模型日均Token破120万亿 两年增千倍刷新纪录 下一篇Perplexity AI被指向Meta、谷歌泄露用户对话 遭美国集体诉讼
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
诺基亚TA-1619入网:1400mAh电池双卡双待新机
业界动态 · 2026-07-01

诺基亚TA-1619入网:1400mAh电池双卡双待新机

诺基亚又有新动作了。7月1日消息,一款型号为TA-1619的诺基亚新机已经拿到了电信设备进网许可,不过证件照目前还没公布。 从入网信息来看,这是一款TD-LTE数字移动电话机,支持TD-LTE网络,属于LTE单天线终端设备。双卡双待、VoLTE语音模式都支持,终端款式为直板。核心配置方面,电池额定容

芯佰微CBMRF900系列国产射频芯片突破海外壁垒
业界动态 · 2026-07-01

芯佰微CBMRF900系列国产射频芯片突破海外壁垒

芯佰微电子发布CBMRF9002和CBMRF9009两款射频收发芯片,采用直接变频架构,覆盖10MHz至7250MHz频段,支持最大450MHz带宽及JESD204B高速接口,性能对标国际,满足5G基站与卫星通信等高端需求,突破海外技术壁垒。

月起私人充电桩可卖电 每度净赚5毛
业界动态 · 2026-07-01

月起私人充电桩可卖电 每度净赚5毛

近期有一则重大利好消息,值得新能源车主们特别留意——车网互动价格机制改革已正式落地。自7月1日起,湖北武汉的新能源车主,可在家中的私人充电桩上通过“卖电”轻松赚钱。具体而言,就是借助峰谷电价差,实现低买高卖,每度电净收益约5毛钱。过去,车网互动(V2G)基本只局限于特定的公共充电站,受试点规模限制,

谷歌发布Nano Banana 2 Lite 4秒出图1元4张
业界动态 · 2026-07-01

谷歌发布Nano Banana 2 Lite 4秒出图1元4张

先说几个关键信息:谷歌DeepMind又给图像生成赛道添了新选项。7月1日发布的消息,Nano Banana 2 Lite正式亮相。这个名字听起来像是水果命名系列大爆发,实际上它的技术代号是Gemini 3 1 Flash Lite Image,属于Gemini 3 1家族。最大的卖点就两个:快,便

技嘉专业电竞装备助力2025 CFS世界总决赛
业界动态 · 2026-07-01

技嘉专业电竞装备助力2025 CFS世界总决赛

2025CFS世界总决赛将于12月3日至14日在重庆举行,来自四大赛区的16支战队参赛。技嘉AORUS作为赛事设备合作伙伴,以主板、显示器等专业硬件保障比赛稳定流畅,并通过赛事反哺研发的闭环模式支持电竞发展。