首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
美团开源LongCat数字人视频生成模型1.5版:10秒视频仅需1分钟

美团开源LongCat数字人视频生成模型1.5版:10秒视频仅需1分钟

热心网友
71
转载
2026-05-24

数字人视频生成技术领域近日迎来一项重要的开源更新。5月22日,美团技术团队正式发布了LongCat-Video-Avatar 1.5版本。此次发布的核心目标在于,推动数字人技术从实验室的高拟真演示阶段,迈向具备实际商用价值的规模化应用场景。

美团开源 LongCat-Video-A vatar 1.5:数字人视频从“彩排”走向“真舞台”,生成 10 秒视频仅需 1 分钟

简而言之,1.5版本在1.0“开源SOTA”模型的基础上,完成了一次面向“商业级应用”的全面迭代。其关键改进聚焦于直接影响用户体验与落地成本的多个维度:唇形同步精度显著提升、物理动作更加自然合理、长视频生成稳定性增强,同时实现了生成效率的大幅优化。

从“彩排”到“登台”:商用体验全面升级

数字人视频要想实现真正的商业落地,仅有逼真的外观是远远不够的。面对真实应用中复杂的语音输入,例如长句、快速对话甚至歌唱,模型的唇部驱动必须做到精准同步、反应灵敏。1.5版本对此进行了重点强化,实现了更平滑、更准确的唇部运动。同时,面部微表情、头部姿态与肢体动作的协调性也得到系统性提升,使得数字人的整体表现更具“真人感”。

此外,模型的场景适应能力也得到拓宽。依托一套高质量的数据处理管线,当前版本能够稳定地生成以真人、动漫角色乃至动物等多种主体为核心的视频。更为实用的是,在多人对话场景中,模型可以智能区分发言者与聆听者,并生成相应的互动姿态,这对于虚拟访谈、在线会议、多角色直播等应用场景至关重要。

当然,商业化落地始终绕不开成本考量。在推理部署层面,本次升级带来了一项关键突破:通过采用先进的DMD蒸馏技术,模型将视频生成所需的采样步数从50步大幅压缩至仅需8步。这意味着什么?推理效率实现了约15倍的提升。生成一段10秒的高质量数字人视频,现在仅需大约1分钟。这种效率的飞跃,直接降低了用户的使用门槛与云计算成本。

技术深潜:三大核心升级解析

那么,上述用户体验的显著提升,背后依托了哪些具体的技术革新?主要集中于以下三个层面。

首先是基础体验的商用化精炼。模型将音频特征提取的编码器从Wav2Vec2升级为参数量更大、且具备多语言先验知识的Whisper-large模型。这使得模型能够更细腻地捕捉语音中的音素细节与节奏韵律,从而显著提升了唇形同步的精度,并增强了全身动作的时序稳定性。长视频生成中常见的画面抖动、帧间跳跃以及身份特征漂移等问题,也因此得到了有效缓解。

其次,数据是模型性能的基石。团队构建了一套涵盖离线标注与在线验证的多阶段数据处理流程。尤为值得一提的是,他们针对性增强了三类关键训练数据:用于学习多人交互逻辑的“多人对话数据”、训练模型在静默时段保持自然姿态的“静默数据”,以及提升数字人表现力的“情绪化数据”。这些数据的补充,直指当前虚拟人生成技术中的典型痛点。

最后,在模型优化层面,通过引入逐帧级别的GRPO偏好对齐技术,专门针对手部运动的稳定性与动作的连续性进行了强化训练。这有效改善了数字人视频中常见的手部扭曲变形与动作衔接不自然等问题,让生成细节更加经得起推敲。

性能实测:用数据验证效果

技术升级的最终成效,需要依靠严谨的评测来验证。美团基于EvalTalker评测体系,构建了一个覆盖新闻播报、在线教育、娱乐解说等多场景的综合评估基准。

根据超过770名评估者完成的1.3万余条主观评分,以及10位领域专家的结构化分析,在物理合理性、时间稳定性、身份一致性和音视频协调性这四个核心维度上,LongCat-Video-Avatar 1.5的综合表现(以雷达图面积衡量)处于行业领先水平。

在具体的用户偏好对比测试中,该模型相较于其他主流方案也展现出明显优势:对比Kling Avatar 2.0的胜率为65.9%,对比OmniHuman-1.5的胜率为61.1%,对比HeyGen的胜率为54.3%。

在更具挑战性的多人对话场景评测中,其得分大幅领先于InfiniteTalk模型。此外,在主体变形和画面跳帧这两个关键负面指标上,其问题发生率分别仅为23.1%和0.8%,均优于同期对比的其他模型。

开源的价值:共建技术生态基座

从上述进展可以看出,数字人视频生成技术正在跨越一道关键门槛:从追求炫酷的演示效果,转向追求稳定、可靠、高效的现实应用。美团此次开源1.5版本,正是旨在提供一个“性能可验证、技术可改进、生态可共建”的坚实技术基座。

当底层模型变得高效、稳定且开源透明,广大的开发者和内容创作者便能更专注于上层应用场景的创新,深入探索虚拟数字人在电商直播、在线教育、数字娱乐、智能客服等众多领域的商业化可能性。这或许正是技术开源最大的价值所在——降低行业创新门槛,加速整个应用生态的繁荣与发展。

目前,该项目已在GitHub、Hugging Face、ModelScope等主流开源平台同步开放。感兴趣的开发者与研究人员可以前往相关平台查看项目详情、获取模型权重并阅读详细的技术报告。

来源:https://www.ithome.com/0/953/861.htm
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

美团开源LongCat数字人视频生成模型1.5版:10秒视频仅需1分钟
AI资讯
美团开源LongCat数字人视频生成模型1.5版:10秒视频仅需1分钟

美团开源LongCat-Video-Avatar1 5版本,推动数字人视频从演示走向商用。该版本在唇形同步、动作协调与多主体适应性上显著提升,并通过DMD蒸馏技术将生成效率提高约15倍,10秒视频仅需1分钟生成。评测显示其在多项核心指标上领先,旨在为开发者提供高效稳定的开源基座,促进虚拟人在多领域应用创新。

热心网友
05.24
美团开源LongCat数字人模型1.5版:视频生成技术详解
AI资讯
美团开源LongCat数字人模型1.5版:视频生成技术详解

美团开源数字人视频生成模型LongCat-Video-Avatar1 5。该模型基于136亿参数基础模型构建,采用Whisper-Large-v3音频编码提升口型同步精度,并通过StepDistillation技术将推理压缩至8步以提升速度。支持生成480P 720P视频,具备单人讲话、多人对话、视频续写及风格化生成等功能,在保持身份一致性与动作连贯性方面表

热心网友
05.23
美团开源LongCat视频虚拟人1.5版 性能超越主流闭源模型
AI资讯
美团开源LongCat视频虚拟人1.5版 性能超越主流闭源模型

美团开源数字人模型LongCat-Video-Avatar1 5实现关键突破,在唇形同步、物理合理性和长视频稳定性上表现优异。通过升级音频编码器、构建多阶段增强数据及引入GRPO技术,显著提升了开放域泛化能力和手部动作自然度。推理效率提升约15倍,部署成本降低,多项评测指标领先。

热心网友
05.23
美团LongCat-2.0万亿参数大模型预览版发布
AI资讯
美团LongCat-2.0万亿参数大模型预览版发布

最近大模型圈有个消息挺值得关注:美团放出了LongCat-2 0-Preview的内测。这可不是一次普通的版本更新,它身上带着几个相当醒目的标签——万亿参数、MoE架构,以及最关键的,完全跑在国产算力上的训推闭环。咱们今天就把它掰开揉碎了看看。 简单来说,LongCat-2 0-Preview是美团

热心网友
05.20
美团LongCat 20大模型开放测试基于国产算力训练
AI资讯
美团LongCat 20大模型开放测试基于国产算力训练

4月24日,《科创板日报》的一则独家报道,再次引爆了国内人工智能与大型语言模型领域的关注。报道披露,美团自主研发的新一代基础大模型——LongCat-2 0-Preview,已悄然启动邀请制内测。最令业界瞩目的是,该模型的参数总量已确认突破万亿级别,这标志着美团大模型正式迈入全球顶尖AI模型的“万亿

热心网友
05.18

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

质押交易是什么 KuCoin质押交易指南与收益解析
web3.0
质押交易是什么 KuCoin质押交易指南与收益解析

质押交易是KuCoin平台提供的一种将闲置加密货币资产投入区块链网络以获取收益的服务。用户通过质押特定代币参与网络验证或治理,从而获得质押奖励。该服务操作简便,支持多种主流币种,旨在帮助用户在持有资产的同时增加额外收入。选择质押时需关注锁定期、收益率和项目风险等因素,以实现稳健的资产增值。

热心网友
05.24
AI文字生成工具让内容创作更简单有趣
AI教程
AI文字生成工具让内容创作更简单有趣

AI文本生成技术依托人工智能算法,能根据指令自动生成连贯文本,显著提升创作效率。它具备高效生成、风格适配与持续学习的能力,可快速提供多样化草稿并激发灵感。使用时需选择合适的工具,并对内容进行审核与润色,以确保准确流畅。该技术为应对紧迫需求、突破创作瓶颈提供了有力支。

热心网友
05.24
高效撰写工作总结报告指南 AI工具助你轻松完成年度总结
AI教程
高效撰写工作总结报告指南 AI工具助你轻松完成年度总结

过去一年,团队聚焦三个核心项目:项目A优化服务流程,客户满意度达85%;项目B加强预算与风控,实现约15%成本结余;项目C基于市场调研推出新品,初期销售额达预期120%。虽遇资源紧张等挑战,经及时复盘调整得以克服。未来将重点提升项目协调与数据分析能力,并借助AI工具优化总结与规划工作。

热心网友
05.24
AI技术辅助实训报告撰写指南 附详细范文模板
AI教程
AI技术辅助实训报告撰写指南 附详细范文模板

实训报告对高校学生和职场新人至关重要,但撰写时常面临内容繁杂、分析浅显等挑战。如今,AI工具可辅助生成结构清晰的报告草稿,用户只需输入关键信息。这使撰写者能专注于深度分析与反思,提升报告规范性与逻辑性,从而更高效地展示实践成果。

热心网友
05.24
Excel隐藏行列取消方法快速恢复完整数据
AI教程
Excel隐藏行列取消方法快速恢复完整数据

Excel表格中隐藏的行列会影响数据完整性。取消隐藏有三种常用方法:通过右键菜单选中相邻行列后选择“取消隐藏”;在“开始”选项卡的“格式”下拉菜单中操作;或使用快捷键Ctrl+Shift+9取消隐藏行、Ctrl+Shift+0取消隐藏列。用户可根据习惯选择最便捷的方式快速恢复完整数据视图。

热心网友
05.24