首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
美团开源LongCat视频虚拟人1.5版 性能超越主流闭源模型

美团开源LongCat视频虚拟人1.5版 性能超越主流闭源模型

热心网友
59
转载
2026-05-23

数字人视频生成技术迎来里程碑式突破:美团龙猫大模型团队正式开源其商用级模型——LongCat-Video-Avatar 1.5。这不仅是一次版本更新,更标志着开源模型在核心体验上实现了从“实验室SOTA”到“商业级可用”的关键跨越。新版本在唇形同步、物理合理性、长视频稳定性及多人互动等实际应用痛点方面均实现了全面跃升,为数字人视频制作提供了强大且易用的解决方案。

拒绝彩排,真刀真枪上舞台!美团LongCat-Video-A vatar1.5开源:全面击败主流闭源模型

三大核心能力升级:精准解决商业化落地难题

要让数字人技术广泛应用于各行各业,必须攻克传统方案中“画面抖动、面部畸变、生成延迟高”等核心痛点。LongCat-Video-Avatar 1.5的升级正是围绕这些商业化落地难题展开的。

  1. 基础体验达到商用标准(音频编码器全面升级)

    模型将音频特征提取模块从Wav2Vec2升级为更强大的Whisper-large。参数量更大、多语言先验知识更丰富的Whisper编码器,能够更精准地捕捉音素细节与发音节奏变化。其直接优势在于,即使面对长句、快速口语甚至歌唱等复杂音频输入,生成的唇部动作也能保持高度精准。更重要的是,这一升级使得面部表情、头部姿态乃至肢体动作都能与语音内容自然协同,从而大幅减少了长视频生成中常见的跳帧和身份漂移问题,显著提升了视频连贯性。

  2. 强大的开放域泛化能力(构建多阶段增强数据体系)

    现实应用场景复杂多样,生成主体可能是真人主播、虚拟偶像,甚至是动漫角色或动物形象。为了稳定处理这些多元化主体,团队构建了一套包含“离线精准标注”与“在线实时验证”的多阶段数据流水线,并针对性注入了三类关键增强数据:

    • 多人对话数据:利用先进的主动说话人检测技术,有效消除了多人对话场景下的音画歧义,能够准确区分说话者与聆听者,确保口型与语音精准对应。

    • 静默状态数据:专门筛选未说话的视频片段进行训练,让模型学习无语音状态下的自然微表情与呼吸感,有效避免了画面中非说话角色出现嘴部乱动的“穿帮”现象。

    • 情感化数据:结合帧级情绪识别技术进行精细筛选,为模型注入丰富的情感变化信息,使其能够理解语音内容与面部表情之间的深层关联,让数字人的反应更具“人情味”和表现力。

  3. 手部动作与连续性专项优化(引入GRPO强化学习)

    在电商直播、产品演示等高频应用场景中,对手部动作的自然度与稳定性要求极高。为此,模型引入了GRPO(基于人类反馈的强化学习优化)技术,将奖励信号细化到逐帧层面,并加入了首帧手部检测机制。这套组合拳显著缓解了手部畸变、局部结构崩塌以及动作不连贯等行业普遍难题,让数字人的手势表达更加真实可信。

推理效率飙升15倍:大幅降低部署与使用成本

对于商业应用而言,出色的效果与可控的成本缺一不可。LongCat-Video-Avatar 1.5在推理效率上取得了突破性进展。通过采用先进的DMD(分布匹配蒸馏)技术,模型成功将原本需要50步的扩散生成过程压缩至仅需8步。同时,团队创新性地采用“一个共享基础模型 + 多个轻量级LoRA适配器”的架构,取代了传统的多模型并行方案,极大地释放了显存占用。

实际测试结果令人瞩目:模型推理效率实现了约15倍的巨大提升。这意味着,生成一段10秒的高质量数字人视频,现在仅需大约1分钟。成本的显著降低,为技术的大规模商业化部署与应用扫清了关键障碍。

权威基准评测:性能全面领先行业头部闭源模型

实践是检验技术的唯一标准。基于权威的EvalTalker评测基准,项目方组织了770名大众评估者与10名领域专家,对涵盖新闻播报、在线教育、娱乐解说等复杂场景的生成视频进行了结构化质量盲测。数据显示,LongCat-Video-Avatar 1.5在多项核心指标上表现卓越:

  • 用户偏好胜率全面领先:在与主流闭源模型的直接A/B对比测试中,其用户偏好胜率分别达到:相比Kling Avatar 2.0为65.9%;相比OmniHuman-1.5为61.1%;相比HeyGen为54.3%。

  • 单人与多人场景得分优异:在单人场景质量得分高达3.336,显著优于HeyGen等知名产品;在更具技术挑战性的多人互动场景中得分达到2.730,大幅领先于InfiniteTalk(2.339)。

  • 画面稳定性表现出色:视频主体变形率控制在23.1%,背景变形率低至9.4%;而最影响观看体验的跳帧问题发生率更是降至0.8%,在所有对比模型中表现最佳。

  • 音视频协调性超越传统方案:面部与身体的同步问题率降至5.1%,唇形同步问题率降至29.8%,这两项关键指标均优于传统的商业闭源系统。

综上所述,此次开源不仅是美团龙猫大模型团队在数字人视频生成技术上的又一次重磅发布,更是向全球开发者、创作者及企业发出的开放共建邀请。团队期望LongCat-Video-Avatar 1.5能够成为一个可验证、可迭代、可持续改进的强大技术基座,与开源社区携手,共同拓展数字人视频技术的真实应用边界与创新可能性。

来源:https://news.aibase.com/zh/news/28241
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

美团开源LongCat数字人模型1.5版:视频生成技术详解
AI资讯
美团开源LongCat数字人模型1.5版:视频生成技术详解

美团开源数字人视频生成模型LongCat-Video-Avatar1 5。该模型基于136亿参数基础模型构建,采用Whisper-Large-v3音频编码提升口型同步精度,并通过StepDistillation技术将推理压缩至8步以提升速度。支持生成480P 720P视频,具备单人讲话、多人对话、视频续写及风格化生成等功能,在保持身份一致性与动作连贯性方面表

热心网友
05.23
美团开源LongCat视频虚拟人1.5版 性能超越主流闭源模型
AI资讯
美团开源LongCat视频虚拟人1.5版 性能超越主流闭源模型

美团开源数字人模型LongCat-Video-Avatar1 5实现关键突破,在唇形同步、物理合理性和长视频稳定性上表现优异。通过升级音频编码器、构建多阶段增强数据及引入GRPO技术,显著提升了开放域泛化能力和手部动作自然度。推理效率提升约15倍,部署成本降低,多项评测指标领先。

热心网友
05.23
美团LongCat-2.0万亿参数大模型预览版发布
AI资讯
美团LongCat-2.0万亿参数大模型预览版发布

最近大模型圈有个消息挺值得关注:美团放出了LongCat-2 0-Preview的内测。这可不是一次普通的版本更新,它身上带着几个相当醒目的标签——万亿参数、MoE架构,以及最关键的,完全跑在国产算力上的训推闭环。咱们今天就把它掰开揉碎了看看。 简单来说,LongCat-2 0-Preview是美团

热心网友
05.20
美团LongCat 20大模型开放测试基于国产算力训练
AI资讯
美团LongCat 20大模型开放测试基于国产算力训练

4月24日,《科创板日报》的一则独家报道,再次引爆了国内人工智能与大型语言模型领域的关注。报道披露,美团自主研发的新一代基础大模型——LongCat-2 0-Preview,已悄然启动邀请制内测。最令业界瞩目的是,该模型的参数总量已确认突破万亿级别,这标志着美团大模型正式迈入全球顶尖AI模型的“万亿

热心网友
05.18
美团LongCat团队开源通用推理评测基准General365详解
业界动态
美团LongCat团队开源通用推理评测基准General365详解

美团LongCat团队开源了通用推理评测基准General365。该基准包含365道人工设计的种子题及其变体,覆盖八大推理维度,并将知识背景限定于中小学水平以纯粹考察逻辑能力。在26款主流大模型测试中,仅一款准确率略超60%,揭示了模型在通用推理上的普遍短板。基准采用混合评分与半公开策略确保评估科学可靠。

热心网友
05.15

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

菩提苦海万事知任务全流程攻略
游戏攻略
菩提苦海万事知任务全流程攻略

在《燕云十六声》中领悟“菩提苦海”,需沉浸探索游戏世界。主线剧情构建认知框架,战斗观察、场景细节与NPC对话皆暗藏线索。通过多元视角拼凑因果,方能深入理解游戏蕴含的宏大叙事与深邃魅力。

热心网友
05.23
海信618电视销量夺冠 Mini LED技术加速普及
业界动态
海信618电视销量夺冠 Mini LED技术加速普及

2026年618大促的序幕刚刚拉开,初期战报已经透露出一些耐人寻味的信号。截至5月21日,海信电视在京东平板电视累计销售竞速榜上拔得头筹,其RGB-Mini LED爆款王——海信小墨E5S Pro,更是同时拿下了天猫平板电视和抖音大家电的5 20单品销冠。 这并非偶然。奥维云网的全渠道监测数据给出了

热心网友
05.23
极氪800kW液冷超充桩上线 峰值电流800A充电更快
业界动态
极氪800kW液冷超充桩上线 峰值电流800A充电更快

充电桩领域的“军备竞赛”再次迎来重磅升级。5月22日,极氪汽车正式发布了其全新一代液冷超级充电桩,将单枪峰值功率一举提升至行业领先的800kW,标志着超充技术迈入新阶段。 根据官方披露的核心信息,这款超充桩主要具备四大优势:极速补能、高效节能、广泛适配与多重安全。具体而言,其单枪峰值电流高达800A

热心网友
05.23
红色沙漠电弧机剑获取攻略与详细步骤解析
游戏攻略
红色沙漠电弧机剑获取攻略与详细步骤解析

获取电弧机剑主要有五种途径:推进主线任务以解锁线索;探索遗迹、工厂等特定区域;挑战特定副本与Boss;完成提及传说武器或遗物的支线任务;参与限时活动并达成要求。玩家可根据偏好选择或组合多种方式获取该武器。

热心网友
05.23
小米汽车试驾活动重启 预约即送1比64合金车模
业界动态
小米汽车试驾活动重启 预约即送1比64合金车模

小米汽车再次为潜在车主带来惊喜福利!即日起至5月31日,用户只需提前完成预约,并到店参与任意车型的试驾体验,即可免费获赠一款1:64精致合金车模。车模款式与颜色随机发放,为试驾过程增添一份专属的收藏乐趣,诚意十足。 参与本次活动需注意以下细则:试驾必须通过官方渠道提前预约;各授权门店的车模备货数量不

热心网友
05.23