阿里巴巴联手人大清华推出AI舞蹈导演系统音乐自动生成舞蹈视频

首页

热心网友

转载

2026-05-14

这项由阿里巴巴AMAP、中国人民大学、清华大学、武汉大学及Malou Tech公司联合完成的研究，以arXiv预印本形式发布于2025年12月（编号arXiv:2512.18181，最新版本更新于2026年5月），计划发表于ACM期刊。感兴趣的读者可以通过该编号在arXiv上查阅完整论文。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

阿里巴巴、人大、清华联手打造

你是否想过，在社交媒体上发布一段精彩的舞蹈视频可以变得非常简单？传统流程需要选歌、编舞、练习、录制和剪辑，步骤繁琐。现在，一种创新的AI技术有望改变这一切：你只需提供一张个人照片和一首喜欢的音乐，剩下的交给AI——它能自动构思并生成一段动作流畅、人物逼真的完整舞蹈视频。

这正是MACE-Dance系统致力实现的目标。其工作原理类似于一场高效的专业接力赛：第一棒是“编舞专家”，负责根据音乐创作舞蹈动作；第二棒是“视觉专家”，负责将动作完美渲染到指定人物形象上。两者协同，最终输出高质量舞蹈视频。

一、核心设计：为何采用“两步走”策略

理解MACE-Dance，关键在于其核心设计思路：为什么将“音乐生成舞蹈视频”这一复杂任务，拆解为两个独立的子任务，而不是采用单一的端到端模型？

从音乐直接生成像素级视频，要求模型同时具备两种高难度能力：一是理解音乐的节拍、旋律与情感风格，并将其转化为合理的人体运动序列；二是将这些运动序列以视觉上逼真、稳定的方式渲染出来，确保人物外貌、服装和光影在每一帧都保持一致。将这两项任务强行融合到一个模型中，往往会导致两者都无法达到最优效果。

更关键的是，端到端模型容易学习到错误的“捷径”，例如将特定背景颜色或服装样式与某种音乐风格错误关联，导致“特征混淆”。研究团队在测试Hallo2、EchoMimic-V3、WAN-S2V等现有模型时均观察到了此现象。

因此，团队采用了结构清晰的解耦方案：在音乐和视频之间，强制引入一个“中间语言”——三维人体运动参数序列（采用学界通用的SMPL格式）。这好比导演在拍摄前撰写的分镜脚本，明确了每一帧的演员姿态、朝向和位置，从而将“舞蹈创意”与“视觉呈现”彻底分离。

与二维关键点坐标相比，三维运动参数优势显著。二维坐标仅是三维动作在平面上的投影，会永久丢失深度信息，且难以处理关节遮挡。而三维格式保留了完整的空间信息，不受拍摄视角和距离影响，对自遮挡和视角变化具有天然的鲁棒性。实验证实，在相同框架下，使用三维参数替代二维关键点，无论在动作生成还是最终视频生成阶段，各项性能指标均有大幅提升。

二、第一棒：懂音乐的“编舞专家”（Motion Expert）

负责第一棒任务的是运动专家（Motion Expert）。其核心任务是：聆听一首音乐，创作出与之匹配的舞蹈动作序列，并以SMPL格式输出。

该模块基于扩散模型构建。其原理是：先向真实的舞蹈动作数据中逐步添加噪声，直至变成完全随机噪声；然后训练一个神经网络，学习在音乐信号的引导下，一步步“去除”噪声，还原出有意义的动作序列，确保生成的动作与音乐的节拍和风格同步。

在网络结构上，研究团队巧妙组合了两种擅长处理不同依赖关系的组件：

1. BiMamba（双向Mamba）：Mamba模型擅长处理长序列，通过一个随时间演化的隐藏状态来记忆历史信息。“双向”设计使其能同时从时间轴的正反两个方向处理序列，既能回顾过去，也能预判未来，这对于理解音乐起伏和保证舞蹈流畅性至关重要。实验表明，仅使用单向Mamba会导致生成的舞蹈退化为简单重复的常见动作，艺术表现力下降。

2. Transformer跨模态注意力机制：这种结构擅长捕捉“全局关联”，让生成每一帧动作时都能参考整段音乐的整体信息，确保舞蹈的整体风格与音乐的情感走向保持一致。

两种组件分工协作：BiMamba保障动作在短时间内的连贯与流畅，Transformer则负责整体舞蹈风格与音乐的宏观匹配。

此外，该架构支持整段序列一次性生成，避免了逐帧生成导致的误差累积“滚雪球”效应，同时大幅提升了效率。在FineDance标准测试集上，该模块每秒可生成770帧动作，速度远超同类方法。

在训练策略上，团队引入了“无引导训练”（GFT）机制，替代了传统的“无分类器引导”（CFG）方法。GFT在训练阶段就将质量控制参数（β）融入模型，推理时只需运行一次模型并通过调节β来平衡结果的多样性与忠实度，效率提升约1.62倍，且各项质量指标均有改善。

三、第二棒：让“画面”与“动作”完美融合的视觉专家（Appearance Expert）

运动专家生成三维动作序列后，外观专家（Appearance Expert）接过第二棒，负责将这段动作“穿”到参考图片中的人物身上，生成完整视频。

团队基于强大的通用人物动画模型Wan-Animate进行改造。针对舞蹈中高速、全身性的复杂动作，设计了两阶段的专门化微调策略：

1. 运动学阶段：首先，通过一个“投影器”模块，将SMPL三维参数转换为Wan-Animate能接受的二维关键点格式。此阶段仅训练一个专门的Body Adapter（身体适配器）模块，冻结模型其他所有参数，精准增强对身体运动信号的处理能力，避免引入不稳定性。

2. 美学阶段：在动作准确性得到保障后，通过插入轻量级的LoRA适配器来优化视觉质量。LoRA是一种高效微调技术，仅通过学习两个低秩小矩阵来调整模型行为，参数量极少。此阶段仅训练这些LoRA参数，专注于提升皮肤纹理、服装稳定性以及对复杂镜头运动的处理能力，而不破坏已有的运动控制能力。

消融实验证明了两阶段的必要性：缺少运动学阶段，视频会出现明显的动作跟随误差和运动模糊；缺少美学阶段，则会出现明显的“鬼影”伪影，视觉质量下降。

四、专为任务打造的数据集与评测体系

为客观评估新任务，研究团队同步构建了数据集MA-Data和一套“运动-外观双维度”评测协议。

MA-Data包含7万段时长5至10秒的视频片段，总时长116小时，涵盖20余种舞蹈风格。数据来源包括专业的FineDance三维数据集和来自抖音、YouTube等平台的高质量真实舞蹈视频，并经过严格清洗。

评测协议从两个维度进行： - 运动维度：评估动作的动态特征分布（FID）、多样性（DIV）以及与音乐的节拍对齐分数（BAS）。 - 外观维度：借用VBench视频生成基准，评估图像质量、美学质量、人物一致性等六项指标。

五、实验结果：三项任务全面领先

研究团队在三项核心任务上进行了对比实验，均取得了当前最优结果：

1. 三维舞蹈生成：Motion Expert在FineDance数据集上对比多个方法，在几乎所有指标上达到最优，生成速度高达每秒770帧。 2. 姿态驱动图像动画：Appearance Expert在FVD、SSIM等四项指标上全面领先。 3. 音乐驱动舞蹈视频生成：完整的MACE-Dance系统在运动维度和外观维度的大多数指标上排名第一，尤其在节拍对齐和动作质量上提升显著。

替换实验进一步验证了设计合理性：用其他组件替换任一专家，都会导致对应维度的指标明显下降，说明两个专家缺一不可，作用互补。