12月18日,美团 LongCat 团队正式对外开源了其 SOTA 级虚拟人视频生成模型——LongCat-Video-Avatar。该消息最早由“龙猫+LongCat”微信公众号发布。

该模型基于 LongCat-Video 基座打造,延续了“一个模型支持多任务”的核心设计理念,原生支持音频/文本生成视频、音频/文本/图像生成视频以及视频续写等核心功能。同时,其在底层架构上进行了全面升级,实现了动作拟真度、长视频稳定性与身份一致性三大维度的显著突破。
据介绍,该模型具备以下几大技术亮点。
告别僵硬,迎接鲜活:它不仅能够精准驱动口型,还能同步指挥眼神、表情和肢体动作,实现丰富饱满的情感表达。
“不说话”的时候,也很像人:美团采用了 Disentangled Unconditional Guidance(解耦无条件引导)训练方法,让模型理解“静音”不等于“死机”。在说话的间隙,虚拟人也会像人类一样自然地眨眼、调整坐姿、放松肩膀。
据介绍,LongCat-Video-Avatar 因此成为首个同时支持文字、图片、视频三种生成模式的“全能选手”,虚拟人从此拥有了“真正的生命力”。
在 HDTF、CelebV-HQ、EMTD 和 EvalTalker 等权威公开数据集上的定量测评表明,LongCat-Video-Avatar 在多项核心指标上达到了 SOTA 领先水平。

