阿里巴巴人大清华联合研发舞蹈AI导演系统

时间：2026-05-16 12:54

阿里巴巴等机构研发的MACE-Dance系统，用户通过一张照片和一段音乐即可自动生成流畅逼真的舞蹈视频。系统分为两步：运动专家根据音乐生成三维舞蹈动作，外观专家将动作渲染到人物图像上。该方法解决了音画同步与画面稳定等难题，评测效果领先，支持动作编辑与多舞蹈风格，为个性化视频创。

如何用AI生成自己跳舞的视频？这项技术正变得触手可及。近期，一项由阿里巴巴AMAP、中国人民大学、清华大学、武汉大学及Malou Tech公司联合完成的研究，提出了名为MACE-Dance的创新系统，旨在系统性地解决这一难题。相关论文已发布于arXiv预印本平台（编号arXiv:2512.18181），并计划发表于ACM期刊。

该研究的目标清晰：用户仅需提供一张个人照片和一段背景音乐，AI即可自动生成动作流畅、人物逼真的舞蹈视频。这背后涉及巨大挑战：舞蹈动作需符合人体运动学、精准匹配音乐节拍，同时生成的视频必须保持人物身份一致、画面稳定。现有技术方案常顾此失彼，要么仅能输出简单的3D骨架动画，要么生成的视频动作僵硬、面部模糊。

MACE-Dance的解决方案颇具巧思：它并未采用单一的“全能模型”，而是将任务拆解为两个专业模块的“接力协作”。第一阶段，“运动专家”根据音乐生成标准的三维舞蹈动作序列；第二阶段，“外观专家”将这些动作“穿戴”到参考图片的人物身上，渲染输出最终视频。这种分工明确的架构，成为攻克技术瓶颈的关键。

一、为何采用分步式生成架构？

在端到端模型盛行的当下，为何选择拆解任务？核心原因在于，从音乐直接生成像素级视频，要求模型同时掌握音乐理解、动作生成与高保真渲染等多种能力。若强行使用单一模型学习，模型极易“走捷径”，学习到虚假关联——例如将特定背景色彩与音乐风格错误绑定，导致生成结果出现逻辑谬误。

研究团队在调试现有模型时，已观察到此类现象。为此，他们引入了明确的“中间表示”——三维人体运动参数（SMPL格式）。这类似于导演先创作详细的分镜头脚本，明确每一帧的演员姿态，再将拍摄与后期特效交由不同专业团队执行。相较于常用的二维人体关键点，三维参数完整保留了空间深度信息，不受视角变化与遮挡干扰，为后续视频合成提供了更为稳定可靠的“动作蓝图”。实验数据证实，采用三维中间表示后，系统各项性能指标均获显著提升。

二、第一阶段：精通音乐的“编舞专家”

负责动作生成的“运动专家”（Motion Expert），其核心是一个精心设计的扩散模型。简而言之，该模型的学习过程是：对真实的舞蹈动作数据逐步添加噪声直至完全随机化，随后训练一个神经网络，使其能够在音乐条件的引导下，逐步去除噪声，重建出与音乐节奏及风格相匹配的舞蹈动作。

该网络结构设计巧妙。它融合了双向Mamba（BiMamba）与Transformer跨模态注意力两种组件。BiMamba擅长处理长序列数据，能有效捕捉动作的前后时序依赖，确保动作短时域内的流畅性；而跨模态注意力机制则使每一帧动作的生成都能“参考”整段音乐的全局风格与情感脉络。两者协同，分别保障了局部连贯性与整体协调性。

更重要的是，该模块采用整体序列生成策略，而非逐帧生成，有效避免了误差累积导致的“动作漂移”问题，生成效率极高，在标准测试集上可达每秒770帧。

在训练策略上，团队采用了“无引导训练”（Guidance-Free Training， GFT）替代传统的“无分类器引导”（Classifier-Free Guidance， CFG）。传统方法在推理时需运行两次模型，效率折半。GFT则在训练时直接引入一个可调节的“质量控制参数”（β），推理时仅需单次前向传播，通过调整β值即可在动作多样性与对训练数据分布的忠实度之间取得平衡。此举不仅节省了近一半的计算时间，且生成效果更为稳定。

三、第二阶段：实现“形神兼备”的视觉专家

获得高质量的动作序列后，如何将其生动、逼真地呈现在视频中？这便是“外观专家”（Appearance Expert）的职责。研究团队选择基于强大的Wan-Animate基础模型进行改造，但并非简单微调，而是设计了一套两阶段的专业化适配策略。

首先，需要一个衔接步骤：将三维SMPL参数转化为Wan-Animate模型能够理解的二维人体关键点。这一过程通过参数化渲染与关键点检测实现，既保留了三维信息的优势，又适配了下游视频生成模型的输入要求。

第一阶段为“运动学适配阶段”。舞蹈动作幅度大、全身协调性要求高，而原模型更侧重于面部细节。团队仅训练一个专门的“身体运动适配器”，精准提升模型对身体运动信号的关注权重，而不改动模型其他部分，从而确保了动作控制的准确性。

第二阶段为“美学优化阶段”。在动作准确的基础上，通过插入轻量级的LoRA适配器，专门优化生成视频的视觉质量，例如提升皮肤纹理真实感、增强服装稳定性、改善复杂镜头运动下的画面表现等。这两个阶段依次进行，分工明确。消融实验表明，缺少任一阶段，最终视频质量都会显著下降。

四、专为舞蹈生成构建的数据集与评估体系

为客观评估新任务，团队构建了MA-Data数据集，包含约7万段舞蹈视频片段，总时长116小时，涵盖20多种舞蹈风格。数据来源兼顾了专业性与真实性：一部分采集自专业舞者的高精度三维动作捕捉数据（保证运动质量），另一部分则来自抖音、YouTube等平台的真实舞蹈视频（保证视觉自然度）。

相应的评估体系也分为“运动质量”与“外观质量”两个维度。运动维度从人体运动学角度评估动作的自然度、多样性以及与音乐的同步性；外观维度则借鉴现有视频生成领域的评估基准，衡量画面质量、时序一致性、平滑度等指标。这套双维度评估协议能更全面地衡量系统的综合性能。

五、实验结果：多项任务表现领先

在三维舞蹈动作生成、姿态驱动图像动画、以及端到端的音乐驱动舞蹈视频生成这三项核心任务上，MACE-Dance均取得了当前最优的评测结果。

特别是在最终的舞蹈视频生成任务上，无论是与“三维生成+视频渲染”的串联方法相比，还是与直接进行视频生成的端到端方法相比，MACE-Dance在绝大多数运动质量和外观质量指标上均排名第一。即使与参数量更大的通用视频生成大模型相比，MACE-Dance在人物身份一致性、动作质量等核心维度上仍表现更优，实现了专业性能与生成效率的良好平衡。

六、用户研究与主观评价验证

量化指标优异，真人观感如何？团队邀请了40位具备舞蹈背景的参与者进行盲测评估。在舞蹈动作与音乐同步性、视频质量、创意性、画面一致性等六个维度上，MACE-Dance生成的视频均获得了最高的用户偏好比例，这证实了其技术优势能够有效转化为更佳的用户体验。

七、运动专家的扩展应用：动作编辑功能

除了从头生成舞蹈，Motion Expert模块还支持灵活的“运动编辑”功能。通过类似图像修复中的“掩码去噪”机制，用户可在推理阶段对已有动作序列进行局部修改，例如补全缺失的舞蹈段落、固定上半身姿态仅重新生成下半身动作、或按照指定轨迹生成舞蹈等，而无需重新训练模型。这极大地拓展了系统的应用灵活性。

由于Motion Expert的输出是标准的三维运动参数，该系统也能轻松接入现有的三维动画制作、游戏开发或虚拟现实（VR）工作流程，实用性强。

八、长序列生成与跨风格泛化能力

系统对于不同舞蹈风格的泛化能力如何？可视化结果显示，对于维吾尔族舞蹈、敦煌舞、K-Pop等风格迥异的舞蹈，模型均能捕捉其核心运动特征，生成具有鲜明风格特色的动作。

面对生成长度达分钟级别的舞蹈视频的挑战，MACE-Dance通过BiMamba模型的长序列外推能力，以及视频渲染阶段采用的“上下文感知渲染”策略（同时参考全局姿态序列、上一帧生成画面和原始人物参考图像），有效防止了生成过程中人物面部“身份变换”或背景“漂移”等问题，能够输出连贯、稳定的长序列舞蹈视频。

总而言之，MACE-Dance的成功在于其模块化设计思想：通过任务解耦，让“运动专家”与“外观专家”各司其职，再以标准化的三维动作接口进行串联。这为普通人创作个性化舞蹈视频提供了新的技术路径。当然，随之而来的深度伪造等伦理与安全问题，也需要业界持续关注并积极应对。

常见问题解答

Q1：使用MACE-Dance生成舞蹈视频需要提供哪些输入？

仅需一张人物参考图片和一段背景音乐。系统将全自动完成从动作生成到视频渲染的全过程，用户无需具备舞蹈编排或动画制作知识。

Q2：MACE-Dance使用的三维运动参数与传统的二维姿态骨架有何区别？

传统的二维骨架会丢失深度信息，且易受视角变化和肢体遮挡的影响。三维SMPL参数完整保留了人体在三维空间中的姿态、形状信息，不受视角限制，为后续高质量视频生成提供了更稳定、精确的“动作蓝图”。

Q3：MACE-Dance是否支持对已有的舞蹈动作进行编辑修改？

支持。其Motion Expert模块内置了动作编辑功能，用户可对生成的动作序列进行时序补全、局部关节编辑或轨迹引导编辑等操作，无需重新训练模型，使用灵活便捷。

来源：https://www.163.com/dy/article/KSU08S6G0511DTVV.html

阿里巴巴

上一篇苹果AI新突破：统一框架实现图文理解与生成能力大幅提升 下一篇成都方言训练师招募四川话语音采集兼职赚钱

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。