游乐游手机版
首页/科技数码/文章详情

阿里巴巴人大清华联合研发舞蹈AI导演系统

时间:2026-05-16 12:54
阿里巴巴等机构研发的MACE-Dance系统,用户通过一张照片和一段音乐即可自动生成流畅逼真的舞蹈视频。系统分为两步:运动专家根据音乐生成三维舞蹈动作,外观专家将动作渲染到人物图像上。该方法解决了音画同步与画面稳定等难题,评测效果领先,支持动作编辑与多舞蹈风格,为个性化视频创。


如何用AI生成自己跳舞的视频?这项技术正变得触手可及。近期,一项由阿里巴巴AMAP、中国人民大学、清华大学、武汉大学及Malou Tech公司联合完成的研究,提出了名为MACE-Dance的创新系统,旨在系统性地解决这一难题。相关论文已发布于arXiv预印本平台(编号arXiv:2512.18181),并计划发表于ACM期刊。

该研究的目标清晰:用户仅需提供一张个人照片和一段背景音乐,AI即可自动生成动作流畅、人物逼真的舞蹈视频。这背后涉及巨大挑战:舞蹈动作需符合人体运动学、精准匹配音乐节拍,同时生成的视频必须保持人物身份一致、画面稳定。现有技术方案常顾此失彼,要么仅能输出简单的3D骨架动画,要么生成的视频动作僵硬、面部模糊。

MACE-Dance的解决方案颇具巧思:它并未采用单一的“全能模型”,而是将任务拆解为两个专业模块的“接力协作”。第一阶段,“运动专家”根据音乐生成标准的三维舞蹈动作序列;第二阶段,“外观专家”将这些动作“穿戴”到参考图片的人物身上,渲染输出最终视频。这种分工明确的架构,成为攻克技术瓶颈的关键。

一、为何采用分步式生成架构?

在端到端模型盛行的当下,为何选择拆解任务?核心原因在于,从音乐直接生成像素级视频,要求模型同时掌握音乐理解、动作生成与高保真渲染等多种能力。若强行使用单一模型学习,模型极易“走捷径”,学习到虚假关联——例如将特定背景色彩与音乐风格错误绑定,导致生成结果出现逻辑谬误。

研究团队在调试现有模型时,已观察到此类现象。为此,他们引入了明确的“中间表示”——三维人体运动参数(SMPL格式)。这类似于导演先创作详细的分镜头脚本,明确每一帧的演员姿态,再将拍摄与后期特效交由不同专业团队执行。相较于常用的二维人体关键点,三维参数完整保留了空间深度信息,不受视角变化与遮挡干扰,为后续视频合成提供了更为稳定可靠的“动作蓝图”。实验数据证实,采用三维中间表示后,系统各项性能指标均获显著提升。

二、第一阶段:精通音乐的“编舞专家”

负责动作生成的“运动专家”(Motion Expert),其核心是一个精心设计的扩散模型。简而言之,该模型的学习过程是:对真实的舞蹈动作数据逐步添加噪声直至完全随机化,随后训练一个神经网络,使其能够在音乐条件的引导下,逐步去除噪声,重建出与音乐节奏及风格相匹配的舞蹈动作。

该网络结构设计巧妙。它融合了双向Mamba(BiMamba)与Transformer跨模态注意力两种组件。BiMamba擅长处理长序列数据,能有效捕捉动作的前后时序依赖,确保动作短时域内的流畅性;而跨模态注意力机制则使每一帧动作的生成都能“参考”整段音乐的全局风格与情感脉络。两者协同,分别保障了局部连贯性与整体协调性。

更重要的是,该模块采用整体序列生成策略,而非逐帧生成,有效避免了误差累积导致的“动作漂移”问题,生成效率极高,在标准测试集上可达每秒770帧。

在训练策略上,团队采用了“无引导训练”(Guidance-Free Training, GFT)替代传统的“无分类器引导”(Classifier-Free Guidance, CFG)。传统方法在推理时需运行两次模型,效率折半。GFT则在训练时直接引入一个可调节的“质量控制参数”(β),推理时仅需单次前向传播,通过调整β值即可在动作多样性与对训练数据分布的忠实度之间取得平衡。此举不仅节省了近一半的计算时间,且生成效果更为稳定。

三、第二阶段:实现“形神兼备”的视觉专家

获得高质量的动作序列后,如何将其生动、逼真地呈现在视频中?这便是“外观专家”(Appearance Expert)的职责。研究团队选择基于强大的Wan-Animate基础模型进行改造,但并非简单微调,而是设计了一套两阶段的专业化适配策略。

首先,需要一个衔接步骤:将三维SMPL参数转化为Wan-Animate模型能够理解的二维人体关键点。这一过程通过参数化渲染与关键点检测实现,既保留了三维信息的优势,又适配了下游视频生成模型的输入要求。

第一阶段为“运动学适配阶段”。舞蹈动作幅度大、全身协调性要求高,而原模型更侧重于面部细节。团队仅训练一个专门的“身体运动适配器”,精准提升模型对身体运动信号的关注权重,而不改动模型其他部分,从而确保了动作控制的准确性。

第二阶段为“美学优化阶段”。在动作准确的基础上,通过插入轻量级的LoRA适配器,专门优化生成视频的视觉质量,例如提升皮肤纹理真实感、增强服装稳定性、改善复杂镜头运动下的画面表现等。这两个阶段依次进行,分工明确。消融实验表明,缺少任一阶段,最终视频质量都会显著下降。

四、专为舞蹈生成构建的数据集与评估体系

为客观评估新任务,团队构建了MA-Data数据集,包含约7万段舞蹈视频片段,总时长116小时,涵盖20多种舞蹈风格。数据来源兼顾了专业性与真实性:一部分采集自专业舞者的高精度三维动作捕捉数据(保证运动质量),另一部分则来自抖音、YouTube等平台的真实舞蹈视频(保证视觉自然度)。

相应的评估体系也分为“运动质量”与“外观质量”两个维度。运动维度从人体运动学角度评估动作的自然度、多样性以及与音乐的同步性;外观维度则借鉴现有视频生成领域的评估基准,衡量画面质量、时序一致性、平滑度等指标。这套双维度评估协议能更全面地衡量系统的综合性能。

五、实验结果:多项任务表现领先

在三维舞蹈动作生成、姿态驱动图像动画、以及端到端的音乐驱动舞蹈视频生成这三项核心任务上,MACE-Dance均取得了当前最优的评测结果。

特别是在最终的舞蹈视频生成任务上,无论是与“三维生成+视频渲染”的串联方法相比,还是与直接进行视频生成的端到端方法相比,MACE-Dance在绝大多数运动质量和外观质量指标上均排名第一。即使与参数量更大的通用视频生成大模型相比,MACE-Dance在人物身份一致性、动作质量等核心维度上仍表现更优,实现了专业性能与生成效率的良好平衡。

六、用户研究与主观评价验证

量化指标优异,真人观感如何?团队邀请了40位具备舞蹈背景的参与者进行盲测评估。在舞蹈动作与音乐同步性、视频质量、创意性、画面一致性等六个维度上,MACE-Dance生成的视频均获得了最高的用户偏好比例,这证实了其技术优势能够有效转化为更佳的用户体验。

七、运动专家的扩展应用:动作编辑功能

除了从头生成舞蹈,Motion Expert模块还支持灵活的“运动编辑”功能。通过类似图像修复中的“掩码去噪”机制,用户可在推理阶段对已有动作序列进行局部修改,例如补全缺失的舞蹈段落、固定上半身姿态仅重新生成下半身动作、或按照指定轨迹生成舞蹈等,而无需重新训练模型。这极大地拓展了系统的应用灵活性。

由于Motion Expert的输出是标准的三维运动参数,该系统也能轻松接入现有的三维动画制作、游戏开发或虚拟现实(VR)工作流程,实用性强。

八、长序列生成与跨风格泛化能力

系统对于不同舞蹈风格的泛化能力如何?可视化结果显示,对于维吾尔族舞蹈、敦煌舞、K-Pop等风格迥异的舞蹈,模型均能捕捉其核心运动特征,生成具有鲜明风格特色的动作。

面对生成长度达分钟级别的舞蹈视频的挑战,MACE-Dance通过BiMamba模型的长序列外推能力,以及视频渲染阶段采用的“上下文感知渲染”策略(同时参考全局姿态序列、上一帧生成画面和原始人物参考图像),有效防止了生成过程中人物面部“身份变换”或背景“漂移”等问题,能够输出连贯、稳定的长序列舞蹈视频。

总而言之,MACE-Dance的成功在于其模块化设计思想:通过任务解耦,让“运动专家”与“外观专家”各司其职,再以标准化的三维动作接口进行串联。这为普通人创作个性化舞蹈视频提供了新的技术路径。当然,随之而来的深度伪造等伦理与安全问题,也需要业界持续关注并积极应对。

常见问题解答

Q1:使用MACE-Dance生成舞蹈视频需要提供哪些输入?

仅需一张人物参考图片和一段背景音乐。系统将全自动完成从动作生成到视频渲染的全过程,用户无需具备舞蹈编排或动画制作知识。

Q2:MACE-Dance使用的三维运动参数与传统的二维姿态骨架有何区别?

传统的二维骨架会丢失深度信息,且易受视角变化和肢体遮挡的影响。三维SMPL参数完整保留了人体在三维空间中的姿态、形状信息,不受视角限制,为后续高质量视频生成提供了更稳定、精确的“动作蓝图”。

Q3:MACE-Dance是否支持对已有的舞蹈动作进行编辑修改?

支持。其Motion Expert模块内置了动作编辑功能,用户可对生成的动作序列进行时序补全、局部关节编辑或轨迹引导编辑等操作,无需重新训练模型,使用灵活便捷。

来源:https://www.163.com/dy/article/KSU08S6G0511DTVV.html
上一篇苹果AI新突破:统一框架实现图文理解与生成能力大幅提升 下一篇成都方言训练师招募 四川话语音采集兼职赚钱
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
2026年实测排行 全能4K Live影像旗舰 国补各价位机型选购指南
科技数码 · 2026-06-07

2026年实测排行 全能4K Live影像旗舰 国补各价位机型选购指南

国补政策一落地,身边不少朋友都开始在盘算换新机。学生党、年轻姑娘、还有那些天天拍短视频的创作者,成了这波购机主力。大家普遍头疼的是:手里预算就那么多,想要颜值、拍照、续航都兼顾,实在不容易。这次我们把vivo几款热门机型真机摸了个遍,结合实验室实测数据,从影像、做工、续航到补贴后到手价,一步步拆解。

SHEIN污染问题与环保管理框架全面解读
科技数码 · 2026-06-07

SHEIN污染问题与环保管理框架全面解读

SHEIN希音环保表现,关键要看这个框架 关注SHEIN希音的环保问题,其实是在探讨一个非常现实的话题:作为一家全球性的时尚零售商,它究竟如何应对服装行业长期面临的环境挑战——资源消耗、库存积压、碳排放、包装与纺织废弃物?如果能够把这些议题梳理清楚,那么对SHEIN希音的整体环保表现,心里也就大致有

苹果美国上架官翻Apple Watch Series 11 2025款 便宜约15%
科技数码 · 2026-06-07

苹果美国上架官翻Apple Watch Series 11 2025款 便宜约15%

苹果官方翻新商店再次迎来新品上架。6月5日,据MacRumors报道,美国官网的官方翻新专区悄然上线了三款2025年9月发布的智能手表——Apple Watch Series 11、Apple Watch Ultra 3以及Apple Watch SE 3。这是该系列机型首次通过翻新渠道销售,折扣幅

飞牛fnOS上线OPPO一加相册互联功能
科技数码 · 2026-06-07

飞牛fnOS上线OPPO一加相册互联功能

近日,飞牛 fnOS 发布重要更新:ARM 设备上的飞牛相册迎来大幅升级,其中最受关注的亮点是正式支持 OPPO 和一加设备互联。值得一提的是,此前 X86 平台已实现该功能,此次更新为 ARM 用户补齐了这项实用功能。 具体来说,OPPO 与飞牛之间的互联打通了四个关键场景,每项体验都非常实在:

小米米家植萃系列智能香氛机首发229元支持澎湃智联
科技数码 · 2026-06-07

小米米家植萃系列智能香氛机首发229元支持澎湃智联

米家智能香氛机植萃系列现已正式开售。大家最关心的价格方面,官方建议零售价为299元,而首发优惠价直接降至229元,性价比十足。 这款香氛机的核心亮点在于选用了奇华顿Orpur高端精油,天然植物萃取,气味清新自然,不刺鼻也不显廉价。它提供三种香型:风铃草、红茶、薰衣草,分别对应清甜、醇厚、舒缓的不同风