阿里巴巴联手人大清华推出AI舞蹈导演系统音乐自动生成舞蹈视频
这项由阿里巴巴AMAP、中国人民大学、清华大学、武汉大学及Malou Tech公司联合完成的研究,以arXiv预印本形式发布于2025年12月(编号arXiv:2512.18181,最新版本更新于2026年5月),计划发表于ACM期刊。感兴趣的读者可以通过该编号在arXiv上查阅完整论文。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

你是否想过,在社交媒体上发布一段精彩的舞蹈视频可以变得非常简单?传统流程需要选歌、编舞、练习、录制和剪辑,步骤繁琐。现在,一种创新的AI技术有望改变这一切:你只需提供一张个人照片和一首喜欢的音乐,剩下的交给AI——它能自动构思并生成一段动作流畅、人物逼真的完整舞蹈视频。
这正是MACE-Dance系统致力实现的目标。其工作原理类似于一场高效的专业接力赛:第一棒是“编舞专家”,负责根据音乐创作舞蹈动作;第二棒是“视觉专家”,负责将动作完美渲染到指定人物形象上。两者协同,最终输出高质量舞蹈视频。
一、核心设计:为何采用“两步走”策略
理解MACE-Dance,关键在于其核心设计思路:为什么将“音乐生成舞蹈视频”这一复杂任务,拆解为两个独立的子任务,而不是采用单一的端到端模型?
从音乐直接生成像素级视频,要求模型同时具备两种高难度能力:一是理解音乐的节拍、旋律与情感风格,并将其转化为合理的人体运动序列;二是将这些运动序列以视觉上逼真、稳定的方式渲染出来,确保人物外貌、服装和光影在每一帧都保持一致。将这两项任务强行融合到一个模型中,往往会导致两者都无法达到最优效果。
更关键的是,端到端模型容易学习到错误的“捷径”,例如将特定背景颜色或服装样式与某种音乐风格错误关联,导致“特征混淆”。研究团队在测试Hallo2、EchoMimic-V3、WAN-S2V等现有模型时均观察到了此现象。
因此,团队采用了结构清晰的解耦方案:在音乐和视频之间,强制引入一个“中间语言”——三维人体运动参数序列(采用学界通用的SMPL格式)。这好比导演在拍摄前撰写的分镜脚本,明确了每一帧的演员姿态、朝向和位置,从而将“舞蹈创意”与“视觉呈现”彻底分离。
与二维关键点坐标相比,三维运动参数优势显著。二维坐标仅是三维动作在平面上的投影,会永久丢失深度信息,且难以处理关节遮挡。而三维格式保留了完整的空间信息,不受拍摄视角和距离影响,对自遮挡和视角变化具有天然的鲁棒性。实验证实,在相同框架下,使用三维参数替代二维关键点,无论在动作生成还是最终视频生成阶段,各项性能指标均有大幅提升。
二、第一棒:懂音乐的“编舞专家”(Motion Expert)
负责第一棒任务的是运动专家(Motion Expert)。其核心任务是:聆听一首音乐,创作出与之匹配的舞蹈动作序列,并以SMPL格式输出。
该模块基于扩散模型构建。其原理是:先向真实的舞蹈动作数据中逐步添加噪声,直至变成完全随机噪声;然后训练一个神经网络,学习在音乐信号的引导下,一步步“去除”噪声,还原出有意义的动作序列,确保生成的动作与音乐的节拍和风格同步。
在网络结构上,研究团队巧妙组合了两种擅长处理不同依赖关系的组件:
1. BiMamba(双向Mamba):Mamba模型擅长处理长序列,通过一个随时间演化的隐藏状态来记忆历史信息。“双向”设计使其能同时从时间轴的正反两个方向处理序列,既能回顾过去,也能预判未来,这对于理解音乐起伏和保证舞蹈流畅性至关重要。实验表明,仅使用单向Mamba会导致生成的舞蹈退化为简单重复的常见动作,艺术表现力下降。
2. Transformer跨模态注意力机制:这种结构擅长捕捉“全局关联”,让生成每一帧动作时都能参考整段音乐的整体信息,确保舞蹈的整体风格与音乐的情感走向保持一致。
两种组件分工协作:BiMamba保障动作在短时间内的连贯与流畅,Transformer则负责整体舞蹈风格与音乐的宏观匹配。
此外,该架构支持整段序列一次性生成,避免了逐帧生成导致的误差累积“滚雪球”效应,同时大幅提升了效率。在FineDance标准测试集上,该模块每秒可生成770帧动作,速度远超同类方法。
在训练策略上,团队引入了“无引导训练”(GFT)机制,替代了传统的“无分类器引导”(CFG)方法。GFT在训练阶段就将质量控制参数(β)融入模型,推理时只需运行一次模型并通过调节β来平衡结果的多样性与忠实度,效率提升约1.62倍,且各项质量指标均有改善。
三、第二棒:让“画面”与“动作”完美融合的视觉专家(Appearance Expert)
运动专家生成三维动作序列后,外观专家(Appearance Expert)接过第二棒,负责将这段动作“穿”到参考图片中的人物身上,生成完整视频。
团队基于强大的通用人物动画模型Wan-Animate进行改造。针对舞蹈中高速、全身性的复杂动作,设计了两阶段的专门化微调策略:
1. 运动学阶段:首先,通过一个“投影器”模块,将SMPL三维参数转换为Wan-Animate能接受的二维关键点格式。此阶段仅训练一个专门的Body Adapter(身体适配器)模块,冻结模型其他所有参数,精准增强对身体运动信号的处理能力,避免引入不稳定性。
2. 美学阶段:在动作准确性得到保障后,通过插入轻量级的LoRA适配器来优化视觉质量。LoRA是一种高效微调技术,仅通过学习两个低秩小矩阵来调整模型行为,参数量极少。此阶段仅训练这些LoRA参数,专注于提升皮肤纹理、服装稳定性以及对复杂镜头运动的处理能力,而不破坏已有的运动控制能力。
消融实验证明了两阶段的必要性:缺少运动学阶段,视频会出现明显的动作跟随误差和运动模糊;缺少美学阶段,则会出现明显的“鬼影”伪影,视觉质量下降。
四、专为任务打造的数据集与评测体系
为客观评估新任务,研究团队同步构建了数据集MA-Data和一套“运动-外观双维度”评测协议。
MA-Data包含7万段时长5至10秒的视频片段,总时长116小时,涵盖20余种舞蹈风格。数据来源包括专业的FineDance三维数据集和来自抖音、YouTube等平台的高质量真实舞蹈视频,并经过严格清洗。
评测协议从两个维度进行: - 运动维度:评估动作的动态特征分布(FID)、多样性(DIV)以及与音乐的节拍对齐分数(BAS)。 - 外观维度:借用VBench视频生成基准,评估图像质量、美学质量、人物一致性等六项指标。
五、实验结果:三项任务全面领先
研究团队在三项核心任务上进行了对比实验,均取得了当前最优结果:
1. 三维舞蹈生成:Motion Expert在FineDance数据集上对比多个方法,在几乎所有指标上达到最优,生成速度高达每秒770帧。 2. 姿态驱动图像动画:Appearance Expert在FVD、SSIM等四项指标上全面领先。 3. 音乐驱动舞蹈视频生成:完整的MACE-Dance系统在运动维度和外观维度的大多数指标上排名第一,尤其在节拍对齐和动作质量上提升显著。
替换实验进一步验证了设计合理性:用其他组件替换任一专家,都会导致对应维度的指标明显下降,说明两个专家缺一不可,作用互补。
六、用户研究与功能拓展
除了量化指标,用户研究也证实了系统的优越性。在有舞蹈背景的参与者中,MACE-Dance在所有评估维度(如舞蹈同步性、质量、创意)上都获得了最高的偏好比例。
此外,Motion Expert还支持强大的运动编辑功能,通过“蒙版去噪”机制,无需重新训练即可实现时序补全、关节级编辑和轨迹引导等实用编辑模式,拓展了在CG动画、VR虚拟人等场景的应用潜力。
七、总结与展望
MACE-Dance通过巧妙的“解耦”设计,将复杂的音乐驱动舞蹈视频生成问题,转化为“如何跳”和“跳的人什么样”两个相对独立子问题的串联求解。两者以标准三维运动参数为接口,各自优化,联合输出。
这项技术预示着,未来普通人或许仅凭一张照片和一首歌,就能获得一段风格匹配、动作流畅、人物逼真的个性化舞蹈视频。当然,随之而来的肖像权使用、训练数据文化偏见等伦理问题也值得持续关注和审慎对待。
对研究感兴趣的读者,可通过arXiv编号2512.18181查阅完整论文,相关代码已在GitHub开源。
Q&A
Q1:MACE-Dance生成舞蹈视频需要提供什么输入?
A:仅需要一张参考人物图片和一段音乐。系统会根据音乐自动生成舞蹈动作,并将其与参考图片中的人物结合,输出完整视频,用户无需自行设计动作。
Q2:MACE-Dance使用的三维运动参数和普通的姿态骨架有什么区别?
A:普通二维姿态骨架只记录平面坐标,会丢失深度信息,且无法处理关节遮挡。MACE-Dance使用的SMPL三维参数保留了完整的空间位置和深度信息,不受视角影响,对自遮挡更鲁棒,能提供更稳定的监督信号,从而提升最终的运动质量和视频一致性。
Q3:MACE-Dance支持对已有舞蹈动作进行修改吗?
A:支持。Motion Expert内置的蒙版去噪机制支持无需重新训练的运动编辑。可以固定片段首尾进行中间补全,可以固定身体局部(如上半身)补全其余部分,也可以指定移动轨迹生成对应舞蹈序列。
相关攻略
这项由阿里巴巴AMAP、中国人民大学、清华大学、武汉大学及Malou Tech公司联合完成的研究,以arXiv预印本形式发布于2025年12月(编号arXiv:2512 18181,最新版本更新于2026年5月),计划发表于ACM期刊。感兴趣的读者可以通过该编号在arXiv上查阅完整论文。 你是否想
阿里巴巴2026财年第四季度营收2433 8亿元,同口径增长11%。AI业务为核心增长动力,“百炼”平台年化经常性收入已超80亿元,预计本季将破百亿。增长主要来自通义千问API及AI软件订阅需求,编程助手与智能体应用带动平台流量半年激增超10倍。公司正加大AI基础设施投入,建设超大规模训练与推理工厂,并通过自研芯。
在人工智能技术快速发展的今天,提升大语言模型的深度推理能力已成为核心挑战。近期,阿里巴巴Qwen大模型团队与中国科学院自动化所联合发布了一项突破性研究,提出了一种名为“策略优化中的对比学习”(CLIPO)的创新方法,旨在从根本上增强AI在数学推理等复杂任务中的稳健性与准确性。这项发表于2026年3月
这项由阿里巴巴Qwen团队、复旦大学及清华大学联合主导的研究,于2026年2月正式发布(论文编号:arXiv:2602 04649v1)。该研究为深入理解并有效提升人工智能评判系统的可靠性,提供了一个突破性的全新视角。 当我们训练AI来评估文本或解答问题时,习惯性地会将焦点放在最终答案的正确性上。这
想象一下,你站在黑板前,看着一位学生一步步演算数学题。作为老师,你能一眼锁定那个出错的步骤吗?这正是当前人工智能在数学推理领域面临的核心挑战。阿里巴巴研究团队近期发布的ProcessBench基准测试,目标明确:检验AI模型能否像一位经验丰富的数学教师那样,精准地揪出解题逻辑链条中的“错误步骤”,从
热门专题
热门推荐
本文梳理了2026年主流数字资产交易平台的特点与选择策略。重点从安全性、资产丰富度、交易体验、创新功能及合规性等维度进行分析,旨在帮助用户根据自身需求,在众多平台中做出明智选择,而非简单罗列排名。选择平台需综合考量资金安全、操作习惯与长期发展愿景。
本文梳理了2026年现货交易所的竞争格局,从交易深度与流动性、资产安全与合规性、用户体验与产品创新三个维度进行深度分析。文章指出,头部平台在合规与技术创新上持续领跑,新兴交易所在细分市场寻求突破,行业整体呈现出专业化、合规化与用户体验并重的发展趋势,为不同需求的用户提供了多元选择。
本文梳理了2026年主要数字资产交易平台的综合表现,从安全性、资产多样性、用户体验及创新服务等维度进行分析。榜单反映了行业向合规与专业化发展的趋势,头部平台在技术架构与风控体系上持续投入,新兴平台则凭借细分领域创新获得关注。投资者需结合自身需求,理性评估平台特点与风险。
今年四月,AI网络初创公司Aria Networks携1 25亿美元融资高调登场,并向业界抛出了一个直指核心的判断:下一阶段AI基础设施的竞争,焦点已不仅仅是堆砌更多的GPU,而在于能否构建一个能充分释放这些算力潜能的“神经网络”。 这家由前Arista和Juniper高管创立、总部位于帕洛阿尔托的
仅凭一张家用RTX 4090显卡的24GB显存,就能流畅运行一个拥有320亿参数的AI大模型,一口气读完6份长文档并自动生成周报?这并非极客魔改,而是来自MIT、英伟达与浙江大学研究者的最新突破。 这项名为TriAttention的技术,精准瞄准了大模型推理中的核心瓶颈——KV缓存显存占用。其核心思





