首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
美团开源商用数字人模型性能超越三大闭源平台

美团开源商用数字人模型性能超越三大闭源平台

热心网友
74
转载
2026-05-24

就在今天,数字人视频生成领域迎来了一记重磅消息:美团龙猫大模型团队毫无预兆地开源了其商用级模型 LongCat-Video-Avatar 1.5。

更令人惊讶的是,在权威评测中,它的用户偏好胜率全面超越了 Kling Avatar 2.0、OmniHuman-1.5 和 HeyGen 等头部玩家。最“豪横”的是,它直接采用了最宽松的 MIT 协议开源,几乎没有任何商业使用限制。

这感觉就像,当所有人都在舞台上炫技时,那个一直低调的选手,默默交出了一份接近满分的答卷。那么,这个 1.5 版本究竟强在哪里?答案就藏在三项扎实的技术升级之中。

一、给数字人换了一副“好耳朵”

数字人视频最怕什么?口型对不上。嘴唇开合哪怕差之毫厘,观众瞬间就会出戏,这正是所谓的“恐怖谷效应”。

LongCat-Video-Avatar 1.5 做的第一项关键升级,就是把音频特征提取编码器从 Wav2Vec2 换成了 Whisper-large。这相当于给数字人做了一次精密的听觉系统升级——换上了一副能在嘈杂环境中捕捉细微声响的专业“耳朵”。

它不仅能“听清”说的是什么,更能精准捕捉 语速变化、重音落点、气息停顿 这些决定表达是否自然的副语言信息。结果是,无论用户语速飞快、中英混杂,甚至哼唱起来,模型都能精确控制嘴唇在哪个音节该张开多少度。

更重要的是,这项升级的影响是全局性的。面部微表情、头部姿态、乃至肩颈和肢体的动作,现在都能跟随语音节奏自然协同。 说到兴奋处眉毛会自然上扬,压低声音时会不自觉地微微前倾——彻底告别了“只有嘴在动”的僵硬感,呈现出一个真正在与你交流的鲜活形象。

二、三套数据,教会数字人“说人话、听人话、带着情绪说人话”

商业场景对数字人的需求千变万化,从真人主播、虚拟偶像到动漫角色乃至拟人动物,形态各异。一个通用模型难以面面俱到,关键还得看“喂”什么数据。

为此,团队构建了一套多阶段数据处理流水线,在自动过滤低质量片段的基础上,专门注入了三类增强数据,好比为数字人请了三位顶尖的专项教练:

多人社交课 — 通过主动说话人检测技术,只保留单人清晰发声的片段。这从源头上解决了多人场景中“围观群众乱张嘴”的干扰问题,确保模型能精准锁定并学习真正说话者的口型与神态。

倾听修养课 — 大量引入人物沉默、聆听状态的视频片段。这让模型学会了在“闭嘴”时该如何表现:自然的微表情、视线的游移、身体的轻微晃动。毕竟,人不是一直在说话的,这些沉默时的细节,恰恰是构成真实感的最后10%。

情绪表演课 — 结合多模态与帧级情绪识别技术,将语音中蕴含的喜怒哀乐直接映射到面部肌肉的运动上。开心时苹果肌会上扬,严肃时眉头会微蹙,从而告别了千篇一律的“营业式微笑”。

针对行业长期存在的“手部崩坏”难题,团队引入了 GRPO(基于人类反馈的强化学习)技术,就像一个苛刻的导演逐帧审核——手部扭曲就扣分,手指消失就重来。

同时,模型加入了首帧手部检测机制,优先训练包含手部的画面。现在,数字人主播可以自信地拿起产品进行展示,手指该有几根就是几根,不再扭曲成难以辨认的抽象形状。

三、15 倍推理效率提升,让技术飞出实验室

效果再好,如果成本高昂、速度缓慢,也难以落地。传统方案往往需要多个模型串联协作,显存占用高,推理速度慢,用户体验大打折扣。

LongCat-Video-Avatar 1.5 采用了 DMD(分布匹配蒸馏)技术,将生成所需的迭代步数从 50 步大幅压缩至 8 步。可以这样理解:原来的模型需要像学生一样反复琢磨50遍才能交出答案,现在则借鉴了“教师模型”的精华,总结出一套只需8遍就能达到相近效果的高效“口诀”。

在模型架构上,也革新为“一个共享基础模型 + 多个轻量级 LoRA 适配器”的模式,使得显存开销断崖式下降。

根据官方实测数据:生成一段10秒的高质量数字人视频,仅需约1分钟,推理效率提升了约15倍。 这意味着,普通消费级显卡就能流畅运行,企业无需再去租赁昂贵的专业计算卡。

以前泡杯咖啡可能只等来几秒的生成结果,现在一段完整的短视频素材可能在外卖送达前就已就绪。数字人视频生成,正在从少数公司的技术壁垒,转变为更广泛的可用工具。

四、用数据说话:凭什么说“超越闭源”?

技术原理讲完,最终还是要看实际效果。

美团基于 EvalTalker 构建了一个覆盖新闻、教育、娱乐、商业等多类复杂场景的评测基准。由770名评估者完成了超过1.3万条主观评分,并由10名领域专家进行了结构化分析。结果颇具说服力:

在具体指标上,表现同样突出:

  • 在单人场景和多人场景的得分分别为 3.3362.730,均大幅领先于同类方案。
  • 主体变形率控制在 23.1%,背景变形率低至 9.4%,跳帧率更是被压到了 0.8%——所有这些关键稳定性指标均优于对比模型。
  • 面部与身体同步出现问题的比率仅为 5.1%,唇形同步问题率为 29.8%,同样是最低水平。

换成更直观的感受就是:观看其生成的数字人视频,你很难再发现眼角不自然的抽动、背景像浸水墙纸般的扭曲,或者在场景切换时人物形象的瞬间“变脸”。

稳定可靠,是任何技术实现商业落地的第一道门槛。从数据来看,LongCat-Video-Avatar 1.5 已经稳稳地跨了过去。

五、开源的阳谋:美团在布什么局?

此次开源采用最宽松的 MIT 协议,模型权重和代码完全开放,允许自由使用、修改甚至集成到商业产品中。这并非简单的技术慈善,更像是一次深度的生态基建。

这与美团一向务实的人工智能战略高度吻合:从2025年9月发布5600亿参数的LongCat-Flash大模型,到2026年4月低调内测万亿参数模型,并坚持全链路国产算力适配。

王兴早已明确表态:不盲目卷入参数竞赛,不做单纯的“词元工厂”,所有AI技术最终都要服务于解决本地生活的实际问题。

而美团恰恰拥有极其丰富的应用场景:外卖直播需要能说会动的主播,到店业务的智能导购屏需要虚拟店员,商家后台则需要一键生成营销视频的便捷工具。

LongCat-Video-Avatar 1.5 的开源,实质上是将内部经过验证、能够扛住真实商业环境考验的技术,交到了整个市场手中。其目的,正是期待一个繁荣的生态能从中生长出来,催生出连美团自身都未曾设想过的创新应用。

数字人视频生成这条赛道,正在从巨头间的“军备竞赛”,逐渐演变为一场“全民运动”。从Soul的SoulX-LiveAct,到NVIDIA的PersonaPlex,再到阿里的Wan2.2-Animate,直至今天美团的模型,开源的力量正在一次次将技术的应用门槛踏平。

正如美团龙猫团队在官宣结尾所写:希望它成为一个“可验证、可改进、可共建的技术基座”。 翻译过来,就是地基已经打好,至于能在上面建造出怎样的摩天大楼,值得所有人期待。

那个一度安静的美团,这次交出的卷子,每一道题都答得扎实。而关于数字人未来的那道大题,现在,每个人都有机会提笔作答了。

来源:https://www.aitntnews.com/newDetail.html?newId=25389
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

美团开源商用数字人模型性能超越三大闭源平台
AI资讯
美团开源商用数字人模型性能超越三大闭源平台

美团开源商用数字人模型LongCat-Video-Avatar1 5,采用宽松MIT协议。该模型在权威评测中用户偏好胜率超越多个主流闭源模型。其核心升级包括:使用Whisper-large提升音频理解与口型同步精准度;通过多阶段数据训练优化表情、姿态与手部自然度;采用DMD等技术将推理效率提升约15倍,大幅降低使用门槛。评测显示其在多项稳定性指。

热心网友
05.24
智谱清影数字人如何更换服装与虚拟背景
AI资讯
智谱清影数字人如何更换服装与虚拟背景

智谱清影不直接支持数字人换装或换背景。其核心功能是基于文本或图片生成全新动态视频。可通过文生视频功能,用详细提示词描述新着装与场景来生成全新内容。或利用图生视频功能,基于现有人物图片生成新背景动态。如需精确控制,可结合外部工具进行后期抠像与合成处理。

热心网友
05.22
百度一镜数字人新成员如何推动技术普及
业界动态
百度一镜数字人新成员如何推动技术普及

百度一镜是由慧播星升级的全场景数字人平台,基于文心大模型与多智能体系统,可自动完成从策划到生成的高拟真全流程。平台已服务超10万客户,收入达数十亿级别。下一步将重点出海,优先服务中国商家并深耕四大区域,支持多语言与主流平台,通过AI主播降低海外直播成本、提升效率。

热心网友
05.22
百度数字人升级从电商迈向全球市场新机遇
科技数码
百度数字人升级从电商迈向全球市场新机遇

百度数字人平台“慧播星”升级为“百度一镜”,定位全场景数字人平台。平台融合文心大模型与多智能体技术,支持从创意生成到视频制作的全流程,已应用于电商直播与内容创作,显著提升效率。其业务年收入达数十亿元,并计划重点拓展海外市场,服务于电商、品牌营销等场景,目标实现全球多区。

热心网友
05.22
智谱清影与硅基智能数字人性价比对比分析
AI资讯
智谱清影与硅基智能数字人性价比对比分析

当您深入比较智谱清影与硅基智能这两大数字人平台时,若发现它们在定价、功能或最终效果上存在显著差异,这实际上折射出两者截然不同的产品设计哲学。简而言之,硅基智能在克隆效率、语言支持、画质输出及部署灵活性方面,提供了更为透明和开放的解决方案;而智谱清影的诸多核心参数,尤其在离线部署与多语言能力的量化指标

热心网友
05.20

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

刺鸟创客AI内容创作平台高效稳定使用指南
AI教程
刺鸟创客AI内容创作平台高效稳定使用指南

在内容创作领域,效率与质量是每一位创作者必须平衡的核心课题。选择一个功能强大的专业平台,能够有效提升产出能力与作品水准。本文将为您深度解析“刺鸟创客”——一个专为写作者设计的AI辅助创作平台,看看它如何成为您创作路上的得力助手。 核心定位与独特优势 刺鸟创客是一个集专业内容生产、高效创作流程与稳定服

热心网友
05.24
欧拉蜜人工智能开放平台OLAMI功能详解与使用指南
AI教程
欧拉蜜人工智能开放平台OLAMI功能详解与使用指南

在人工智能技术快速发展的当下,如何让开发者高效、便捷地将AI能力集成到自己的产品中,已成为一个关键课题。市场上有多种平台提供此类服务,其中OLAMI欧拉蜜人工智能开放平台,是一个值得开发者重点关注的解决方案。 概括而言,OLAMI欧拉蜜是一个综合性的AI开放平台。它集成了云端API接口、便捷的管理后

热心网友
05.24
文心快码使用指南与高效编程技巧
AI教程
文心快码使用指南与高效编程技巧

文心快码是什么? 在软件开发领域,提升编码效率是开发者永恒的追求。百度推出的文心快码(Baidu Comate),正是这样一款基于百度文心大模型打造的智能编程助手。它深度融合了百度在人工智能与编程领域的海量数据与深厚技术积累,旨在为开发者提供实时的AI辅助。自2023年6月发布以来,文心快码快速迭代

热心网友
05.24
Hey Friday公文写作助手使用指南与技巧
AI教程
Hey Friday公文写作助手使用指南与技巧

在内容创作领域,效率与质量往往难以兼顾。是否存在一款工具,能够像一位不知疲倦的助手,将您的灵感迅速转化为结构严谨、语言流畅的优质文章?今天我们将深入探讨的HeyFriday,正是这样一款旨在解决此痛点的智能写作助手。 HeyFriday是什么? 简而言之,HeyFriday是一个专注于帮助用户高效生

热心网友
05.24
改图鸭AI绘画在线图像处理工具使用指南
AI教程
改图鸭AI绘画在线图像处理工具使用指南

在当今数字化时代,无论是社交媒体运营、内容创作还是日常办公,一款简单易用且功能强大的在线图片编辑工具都显得尤为重要。改图鸭作为一款全面的在线图像处理平台,集成了多种实用功能,让用户无需下载复杂的专业软件,直接在浏览器中就能完成绝大多数常见的图片编辑需求,大大提升了工作效率。 核心功能:从基础编辑到智

热心网友
05.24