美团开源LongCat数字人模型1.5版 10秒视频生成仅需1分钟
数字人视频生成技术迎来重大突破。美团技术团队正式开源了其LongCat-Video-Avatar模型的1.5版本,标志着该技术从实验室研究迈向商业级应用的新阶段。

此次版本升级的核心目标,是从追求“高拟真度”的学术标杆,转向打造“高可用性”的生产力工具。这意味着模型不仅需要看起来逼真,更要在实际使用中稳定、高效、易用。
具体而言,1.5版本在多个维度实现了显著提升。首先,基础体验全面增强。新版模型能够更稳健地处理长句子、快速语音甚至歌唱等复杂音频输入,确保口型同步精准且自然。同时,面部表情、头部姿态与肢体动作的协调性也得到优化,整体动态表现更为流畅生动。
在场景适应性方面,得益于更高质量的数据训练体系,模型能够稳定生成真人、动漫角色乃至动物等多种主体形象。一个关键的实用突破是,它现在能较好地理解和生成多人对话场景,可以自然地分辨说话者与聆听者,并进行相应的视觉反馈。
效率是技术商业化的生命线。1.5版本在推理部署上实现了巨大飞跃。通过创新的DMD蒸馏技术,模型生成所需的步数从50步大幅压缩至仅需8步。这直接带来了约15倍的推理效率提升。生成一段10秒的数字人视频,现在仅需1分钟左右,极大地增强了其实用性与可部署性。

技术架构的三大核心升级
这些卓越体验的背后,是底层技术架构的三项实质性革新。
第一,基础体验的商用级打磨。模型将音频特征提取编码器从Wav2Vec2升级为参数更庞大、多语言先验知识更丰富的Whisper-large。这一改进能更精细地捕捉语音中的音素细节与韵律节奏,从而显著提升唇形同步的准确性以及全身动作的时序稳定性。其直接益处是有效减少了长视频生成中常见的画面抖动、跳帧以及角色身份漂移等问题。

第二,数据体系的系统化构建。为攻克虚拟人生成的典型难题,龙猫团队构建了一套涵盖离线标注与在线验证的多阶段数据处理流程。尤为重要的是,他们针对性引入了三类增强数据:用于训练多人交互理解的“多人对话数据”、提升静默状态自然度的“静默帧数据”,以及赋予表情更多情感的“情绪化数据”。这套组合策略精准应对了当前AI数字人生成的核心痛点。

第三,通过偏好对齐优化生成细节。模型采用了逐帧级别的GRPO(组相对策略优化)技术进行偏好对齐,专门针对手部稳定性与动作连续性进行强化训练。这有助于缓解数字人视频中常见的手部畸变、动作卡顿等细微瑕疵,使得最终生成效果更为细腻、专业。

权威性能评测:展现领先优势
实践是检验真理的唯一标准。美团基于自建的EvalTalker评测基准,覆盖新闻播报、在线教育、娱乐互动等多种真实应用场景,展开了大规模综合评估。
这项由770名评估者完成超1.3万条主观评分,并结合10名专家结构化分析的结果表明,在物理合理性、时间稳定性、身份一致性和音画协调性这四个核心维度上,LongCat-Video-Avatar 1.5的综合表现雷达图面积处于行业领先水平。
在具体的用户偏好盲测中,该模型相比其他主流数字人生成模型也展现出明显优势:对比Kling Avatar 2.0的胜率为65.9%,对比OmniHuman-1.5的胜率为61.1%,对比HeyGen的胜率为54.3%。
特别是在处理多人对话场景时,其得分大幅领先于InfiniteTalk等模型。在衡量生成稳定性的关键指标上,它的主体变形问题率控制在23.1%,跳帧问题率更是低至0.8%,这两项数据均优于参与对比的其他竞品模型。


此次开源清晰地表明,AI数字人视频生成技术正在跨越从“技术演示”到“生产工具”的关键鸿沟。正如美团团队所展望的,他们希望LongCat-Video-Avatar 1.5能成为一个坚实、可验证、可持续迭代的技术基座。让广大开发者与内容创作者能够基于此,深入探索虚拟数字人在电商直播、在线教育、虚拟客服、数字营销等更广阔场景下的应用潜力。

项目已全面开源,相关资源链接如下:
- Github项目地址:https://github.com/meituan-longcat/LongCat-Video
- HuggingFace模型:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
- 详细技术报告:https://github.com/meituan-longcat/LongCat-Video/blob/main/assets/LongCat-Video-Avatar-1.5-Tech-Report.pdf
- 官方项目主页:https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/
- Modelscope平台:https://www.modelscope.cn/models/meituan-longcat/LongCat-Video-Avatar-1.5/summary
相关攻略
美团无人机低空航网转入常态化运营并开放合作,标志其配送进入规模化商用新阶段。同步发布第四代无人机M-Drone4LWinch,可空中悬停并通过绳索精准投递,适应多种极端天气。配套的M-Port3智能接驳机场部署灵活,支持自动装载。调度与安全系统保障高效运行,合作已拓展至零售、医疗等多领域。
杨浦区10家社区卫生服务中心集体入驻美团平台,推出“互联网+社区护理”上门服务,为出行不便人群提供专业护理。该模式基于前期试点成功,实现了线上访问量和订单量的显著增长,形成了区卫健委、社区中心与平台协同的数字化模式,为基层医疗转型提供了参考样本。
3月3日,美团旗下光年之外团队研发的AI浏览器——Tabbit浏览器,针对其翻译功能被指涉嫌抄袭开源代码一事,发布了正式的《关于翻译插件项目代码的说明》,回应了近期开源社区的广泛关注与讨论。 2026年3月3日,我们注意到开源社区关于Tabbit浏览器翻译功能使用“陪读蛙”(read-frog)项目
外卖食品安全的监管,一直是消费者关心的核心议题。传统监管方式常常面临线索发现滞后、处理流程繁琐等实际困难。近期,四川宜宾市市场监督管理局与美团外卖平台达成的战略合作,为解决这一行业痛点提供了创新思路,有望建立一套高效的数字化共治体系。 5月18日,双方正式签署“放心外卖”食品安全政企共治平台合作框架
QuestMobile报告将美团定位为本地生活“防守方”。阿里、京东以资本和效率投入,字节借内容重塑消费决策,高德以场景侵蚀边缘市场,竞争焦点正从履约转向决策前环节。美团用户与商家增速放缓,骑手多平台化,核心“飞轮效应”面临松动。其虽具备深厚线下运营能力,但需在多线应战,防守成本不断升高。
热门专题
热门推荐
《蓝色星原:旅谣》中,“断风磐”区域存在以翼人为核心的独立阵营。该种族天生双翼,可浮空移动,成员间保持疏离感。核心角色包括擅长雷属性连击与印记附加的米蒂,以及专精“破刃”、能通过印记提升大招伤害的法兰塔。阵营的浮空机制兼顾种族特色与战斗平衡,适合追求强度与手感的玩家。
币安官网入口与注册地址详解 不少朋友都在询问,币安的官网入口和交易所注册地址究竟在哪里。别急,下面我们就来详细梳理一下,帮你快速找到门路,并了解这个平台的核心特点。 币安官网注册入口: 币安官方APP下载: 作为全球领先的数字资产交易平台,币安提供的服务相当全面。其核心优势之一,在于多样化的交易选择
一款出色的竞速游戏或体育游戏,其灵魂要素往往离不开一份精心编排的背景音乐歌单。 回顾《托尼·霍克职业滑板1+2 重制版》发售前,玩家们最关心的核心悬念之一,便是原版经典曲目能否全部保留。事实证明,它成功做到了这一点。这也使得后来《职业滑板3+4 重制版》因音乐阵容变动而引发的玩家不满,显得尤为明显。
在《奥特曼传奇英雄》中,卡牌系统是提升战力的核心玩法之一。一套精心搭配的卡牌能为全队英雄带来显著的属性加成,直接影响你的战斗表现。今天,我们就来全面解析卡牌系统的获取、培养与搭配策略,助你高效提升实力。 卡牌获取途径详解 想要组建强大的卡牌阵容,首先需要了解各种获取渠道。游戏内提供了多种方式,让你能
《奥特曼传奇英雄》的PVP对战是玩家间实时竞技的核心。战力提升依赖装备强化、源晶系统与英雄羁绊搭配。奥特竞技场包含单人模式与荣耀3V3,需运用属性克制与团队策略。当战力相当时,胜负取决于英雄搭配、技能释放时机及控制、恢复等细节操作。全面准备方能制胜。





