美团开源商用数字人模型性能超越三大闭源平台

首页

AI资讯

热心网友

转载

2026-05-24

就在今天，数字人视频生成领域迎来了一记重磅消息：美团龙猫大模型团队毫无预兆地开源了其商用级模型 LongCat-Video-Avatar 1.5。

更令人惊讶的是，在权威评测中，它的用户偏好胜率全面超越了 Kling Avatar 2.0、OmniHuman-1.5 和 HeyGen 等头部玩家。最“豪横”的是，它直接采用了最宽松的 MIT 协议开源，几乎没有任何商业使用限制。

这感觉就像，当所有人都在舞台上炫技时，那个一直低调的选手，默默交出了一份接近满分的答卷。那么，这个 1.5 版本究竟强在哪里？答案就藏在三项扎实的技术升级之中。

一、给数字人换了一副“好耳朵”

数字人视频最怕什么？口型对不上。嘴唇开合哪怕差之毫厘，观众瞬间就会出戏，这正是所谓的“恐怖谷效应”。

LongCat-Video-Avatar 1.5 做的第一项关键升级，就是把音频特征提取编码器从 Wav2Vec2 换成了 Whisper-large。这相当于给数字人做了一次精密的听觉系统升级——换上了一副能在嘈杂环境中捕捉细微声响的专业“耳朵”。

它不仅能“听清”说的是什么，更能精准捕捉 语速变化、重音落点、气息停顿 这些决定表达是否自然的副语言信息。结果是，无论用户语速飞快、中英混杂，甚至哼唱起来，模型都能精确控制嘴唇在哪个音节该张开多少度。

更重要的是，这项升级的影响是全局性的。面部微表情、头部姿态、乃至肩颈和肢体的动作，现在都能跟随语音节奏自然协同。 说到兴奋处眉毛会自然上扬，压低声音时会不自觉地微微前倾——彻底告别了“只有嘴在动”的僵硬感，呈现出一个真正在与你交流的鲜活形象。

二、三套数据，教会数字人“说人话、听人话、带着情绪说人话”

商业场景对数字人的需求千变万化，从真人主播、虚拟偶像到动漫角色乃至拟人动物，形态各异。一个通用模型难以面面俱到，关键还得看“喂”什么数据。

为此，团队构建了一套多阶段数据处理流水线，在自动过滤低质量片段的基础上，专门注入了三类增强数据，好比为数字人请了三位顶尖的专项教练：

多人社交课 — 通过主动说话人检测技术，只保留单人清晰发声的片段。这从源头上解决了多人场景中“围观群众乱张嘴”的干扰问题，确保模型能精准锁定并学习真正说话者的口型与神态。

倾听修养课 — 大量引入人物沉默、聆听状态的视频片段。这让模型学会了在“闭嘴”时该如何表现：自然的微表情、视线的游移、身体的轻微晃动。毕竟，人不是一直在说话的，这些沉默时的细节，恰恰是构成真实感的最后10%。

情绪表演课 — 结合多模态与帧级情绪识别技术，将语音中蕴含的喜怒哀乐直接映射到面部肌肉的运动上。开心时苹果肌会上扬，严肃时眉头会微蹙，从而告别了千篇一律的“营业式微笑”。

针对行业长期存在的“手部崩坏”难题，团队引入了 GRPO（基于人类反馈的强化学习）技术，就像一个苛刻的导演逐帧审核——手部扭曲就扣分，手指消失就重来。

同时，模型加入了首帧手部检测机制，优先训练包含手部的画面。现在，数字人主播可以自信地拿起产品进行展示，手指该有几根就是几根，不再扭曲成难以辨认的抽象形状。

三、15 倍推理效率提升，让技术飞出实验室

效果再好，如果成本高昂、速度缓慢，也难以落地。传统方案往往需要多个模型串联协作，显存占用高，推理速度慢，用户体验大打折扣。

LongCat-Video-Avatar 1.5 采用了 DMD（分布匹配蒸馏）技术，将生成所需的迭代步数从 50 步大幅压缩至 8 步。可以这样理解：原来的模型需要像学生一样反复琢磨50遍才能交出答案，现在则借鉴了“教师模型”的精华，总结出一套只需8遍就能达到相近效果的高效“口诀”。