首页 游戏 软件 资讯 排行榜 专题
首页
AI
阿里巴巴联手人大清华推出AI舞蹈导演系统音乐自动生成舞蹈视频

阿里巴巴联手人大清华推出AI舞蹈导演系统音乐自动生成舞蹈视频

热心网友
74
转载
2026-05-14

这项由阿里巴巴AMAP、中国人民大学、清华大学、武汉大学及Malou Tech公司联合完成的研究,以arXiv预印本形式发布于2025年12月(编号arXiv:2512.18181,最新版本更新于2026年5月),计划发表于ACM期刊。感兴趣的读者可以通过该编号在arXiv上查阅完整论文。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

阿里巴巴、人大、清华联手打造

你是否想过,在社交媒体上发布一段精彩的舞蹈视频可以变得非常简单?传统流程需要选歌、编舞、练习、录制和剪辑,步骤繁琐。现在,一种创新的AI技术有望改变这一切:你只需提供一张个人照片和一首喜欢的音乐,剩下的交给AI——它能自动构思并生成一段动作流畅、人物逼真的完整舞蹈视频。

这正是MACE-Dance系统致力实现的目标。其工作原理类似于一场高效的专业接力赛:第一棒是“编舞专家”,负责根据音乐创作舞蹈动作;第二棒是“视觉专家”,负责将动作完美渲染到指定人物形象上。两者协同,最终输出高质量舞蹈视频。

一、核心设计:为何采用“两步走”策略

理解MACE-Dance,关键在于其核心设计思路:为什么将“音乐生成舞蹈视频”这一复杂任务,拆解为两个独立的子任务,而不是采用单一的端到端模型?

从音乐直接生成像素级视频,要求模型同时具备两种高难度能力:一是理解音乐的节拍、旋律与情感风格,并将其转化为合理的人体运动序列;二是将这些运动序列以视觉上逼真、稳定的方式渲染出来,确保人物外貌、服装和光影在每一帧都保持一致。将这两项任务强行融合到一个模型中,往往会导致两者都无法达到最优效果。

更关键的是,端到端模型容易学习到错误的“捷径”,例如将特定背景颜色或服装样式与某种音乐风格错误关联,导致“特征混淆”。研究团队在测试Hallo2、EchoMimic-V3、WAN-S2V等现有模型时均观察到了此现象。

因此,团队采用了结构清晰的解耦方案:在音乐和视频之间,强制引入一个“中间语言”——三维人体运动参数序列(采用学界通用的SMPL格式)。这好比导演在拍摄前撰写的分镜脚本,明确了每一帧的演员姿态、朝向和位置,从而将“舞蹈创意”与“视觉呈现”彻底分离。

与二维关键点坐标相比,三维运动参数优势显著。二维坐标仅是三维动作在平面上的投影,会永久丢失深度信息,且难以处理关节遮挡。而三维格式保留了完整的空间信息,不受拍摄视角和距离影响,对自遮挡和视角变化具有天然的鲁棒性。实验证实,在相同框架下,使用三维参数替代二维关键点,无论在动作生成还是最终视频生成阶段,各项性能指标均有大幅提升。

二、第一棒:懂音乐的“编舞专家”(Motion Expert)

负责第一棒任务的是运动专家(Motion Expert)。其核心任务是:聆听一首音乐,创作出与之匹配的舞蹈动作序列,并以SMPL格式输出。

该模块基于扩散模型构建。其原理是:先向真实的舞蹈动作数据中逐步添加噪声,直至变成完全随机噪声;然后训练一个神经网络,学习在音乐信号的引导下,一步步“去除”噪声,还原出有意义的动作序列,确保生成的动作与音乐的节拍和风格同步。

在网络结构上,研究团队巧妙组合了两种擅长处理不同依赖关系的组件:

1. BiMamba(双向Mamba):Mamba模型擅长处理长序列,通过一个随时间演化的隐藏状态来记忆历史信息。“双向”设计使其能同时从时间轴的正反两个方向处理序列,既能回顾过去,也能预判未来,这对于理解音乐起伏和保证舞蹈流畅性至关重要。实验表明,仅使用单向Mamba会导致生成的舞蹈退化为简单重复的常见动作,艺术表现力下降。

2. Transformer跨模态注意力机制:这种结构擅长捕捉“全局关联”,让生成每一帧动作时都能参考整段音乐的整体信息,确保舞蹈的整体风格与音乐的情感走向保持一致。

两种组件分工协作:BiMamba保障动作在短时间内的连贯与流畅,Transformer则负责整体舞蹈风格与音乐的宏观匹配。

此外,该架构支持整段序列一次性生成,避免了逐帧生成导致的误差累积“滚雪球”效应,同时大幅提升了效率。在FineDance标准测试集上,该模块每秒可生成770帧动作,速度远超同类方法。

在训练策略上,团队引入了“无引导训练”(GFT)机制,替代了传统的“无分类器引导”(CFG)方法。GFT在训练阶段就将质量控制参数(β)融入模型,推理时只需运行一次模型并通过调节β来平衡结果的多样性与忠实度,效率提升约1.62倍,且各项质量指标均有改善。

三、第二棒:让“画面”与“动作”完美融合的视觉专家(Appearance Expert)

运动专家生成三维动作序列后,外观专家(Appearance Expert)接过第二棒,负责将这段动作“穿”到参考图片中的人物身上,生成完整视频。

团队基于强大的通用人物动画模型Wan-Animate进行改造。针对舞蹈中高速、全身性的复杂动作,设计了两阶段的专门化微调策略:

1. 运动学阶段:首先,通过一个“投影器”模块,将SMPL三维参数转换为Wan-Animate能接受的二维关键点格式。此阶段仅训练一个专门的Body Adapter(身体适配器)模块,冻结模型其他所有参数,精准增强对身体运动信号的处理能力,避免引入不稳定性。

2. 美学阶段:在动作准确性得到保障后,通过插入轻量级的LoRA适配器来优化视觉质量。LoRA是一种高效微调技术,仅通过学习两个低秩小矩阵来调整模型行为,参数量极少。此阶段仅训练这些LoRA参数,专注于提升皮肤纹理、服装稳定性以及对复杂镜头运动的处理能力,而不破坏已有的运动控制能力。

消融实验证明了两阶段的必要性:缺少运动学阶段,视频会出现明显的动作跟随误差和运动模糊;缺少美学阶段,则会出现明显的“鬼影”伪影,视觉质量下降。

四、专为任务打造的数据集与评测体系

为客观评估新任务,研究团队同步构建了数据集MA-Data和一套“运动-外观双维度”评测协议。

MA-Data包含7万段时长5至10秒的视频片段,总时长116小时,涵盖20余种舞蹈风格。数据来源包括专业的FineDance三维数据集和来自抖音、YouTube等平台的高质量真实舞蹈视频,并经过严格清洗。

评测协议从两个维度进行: - 运动维度:评估动作的动态特征分布(FID)、多样性(DIV)以及与音乐的节拍对齐分数(BAS)。 - 外观维度:借用VBench视频生成基准,评估图像质量、美学质量、人物一致性等六项指标。

五、实验结果:三项任务全面领先

研究团队在三项核心任务上进行了对比实验,均取得了当前最优结果:

1. 三维舞蹈生成:Motion Expert在FineDance数据集上对比多个方法,在几乎所有指标上达到最优,生成速度高达每秒770帧。 2. 姿态驱动图像动画:Appearance Expert在FVD、SSIM等四项指标上全面领先。 3. 音乐驱动舞蹈视频生成:完整的MACE-Dance系统在运动维度和外观维度的大多数指标上排名第一,尤其在节拍对齐和动作质量上提升显著。

替换实验进一步验证了设计合理性:用其他组件替换任一专家,都会导致对应维度的指标明显下降,说明两个专家缺一不可,作用互补。

六、用户研究与功能拓展

除了量化指标,用户研究也证实了系统的优越性。在有舞蹈背景的参与者中,MACE-Dance在所有评估维度(如舞蹈同步性、质量、创意)上都获得了最高的偏好比例。

此外,Motion Expert还支持强大的运动编辑功能,通过“蒙版去噪”机制,无需重新训练即可实现时序补全、关节级编辑和轨迹引导等实用编辑模式,拓展了在CG动画、VR虚拟人等场景的应用潜力。

七、总结与展望

MACE-Dance通过巧妙的“解耦”设计,将复杂的音乐驱动舞蹈视频生成问题,转化为“如何跳”和“跳的人什么样”两个相对独立子问题的串联求解。两者以标准三维运动参数为接口,各自优化,联合输出。

这项技术预示着,未来普通人或许仅凭一张照片和一首歌,就能获得一段风格匹配、动作流畅、人物逼真的个性化舞蹈视频。当然,随之而来的肖像权使用、训练数据文化偏见等伦理问题也值得持续关注和审慎对待。

对研究感兴趣的读者,可通过arXiv编号2512.18181查阅完整论文,相关代码已在GitHub开源。

Q&A

Q1:MACE-Dance生成舞蹈视频需要提供什么输入?

A:仅需要一张参考人物图片和一段音乐。系统会根据音乐自动生成舞蹈动作,并将其与参考图片中的人物结合,输出完整视频,用户无需自行设计动作。

Q2:MACE-Dance使用的三维运动参数和普通的姿态骨架有什么区别?

A:普通二维姿态骨架只记录平面坐标,会丢失深度信息,且无法处理关节遮挡。MACE-Dance使用的SMPL三维参数保留了完整的空间位置和深度信息,不受视角影响,对自遮挡更鲁棒,能提供更稳定的监督信号,从而提升最终的运动质量和视频一致性。

Q3:MACE-Dance支持对已有舞蹈动作进行修改吗?

A:支持。Motion Expert内置的蒙版去噪机制支持无需重新训练的运动编辑。可以固定片段首尾进行中间补全,可以固定身体局部(如上半身)补全其余部分,也可以指定移动轨迹生成对应舞蹈序列。

来源:https://www.techwalker.com/2026/0514/3187043.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

阿里巴巴联手人大清华推出AI舞蹈导演系统音乐自动生成舞蹈视频
AI
阿里巴巴联手人大清华推出AI舞蹈导演系统音乐自动生成舞蹈视频

这项由阿里巴巴AMAP、中国人民大学、清华大学、武汉大学及Malou Tech公司联合完成的研究,以arXiv预印本形式发布于2025年12月(编号arXiv:2512 18181,最新版本更新于2026年5月),计划发表于ACM期刊。感兴趣的读者可以通过该编号在arXiv上查阅完整论文。 你是否想

热心网友
05.14
阿里巴巴2026财年Q4财报解读:AI收入飙升,百炼平台ARR将超百亿
业界动态
阿里巴巴2026财年Q4财报解读:AI收入飙升,百炼平台ARR将超百亿

阿里巴巴2026财年第四季度营收2433 8亿元,同口径增长11%。AI业务为核心增长动力,“百炼”平台年化经常性收入已超80亿元,预计本季将破百亿。增长主要来自通义千问API及AI软件订阅需求,编程助手与智能体应用带动平台流量半年激增超10倍。公司正加大AI基础设施投入,建设超大规模训练与推理工厂,并通过自研芯。

热心网友
05.14
阿里巴巴AI推理稳定性提升:对比学习优化强化学习训练
AI
阿里巴巴AI推理稳定性提升:对比学习优化强化学习训练

在人工智能技术快速发展的今天,提升大语言模型的深度推理能力已成为核心挑战。近期,阿里巴巴Qwen大模型团队与中国科学院自动化所联合发布了一项突破性研究,提出了一种名为“策略优化中的对比学习”(CLIPO)的创新方法,旨在从根本上增强AI在数学推理等复杂任务中的稳健性与准确性。这项发表于2026年3月

热心网友
05.14
AI判断准确但理由全错 阿里巴巴量化评估表面一致内在分歧现象
AI
AI判断准确但理由全错 阿里巴巴量化评估表面一致内在分歧现象

这项由阿里巴巴Qwen团队、复旦大学及清华大学联合主导的研究,于2026年2月正式发布(论文编号:arXiv:2602 04649v1)。该研究为深入理解并有效提升人工智能评判系统的可靠性,提供了一个突破性的全新视角。 当我们训练AI来评估文本或解答问题时,习惯性地会将焦点放在最终答案的正确性上。这

热心网友
05.14
阿里巴巴团队突破AI数学推理瓶颈 实现机器智能识别解题错误
AI
阿里巴巴团队突破AI数学推理瓶颈 实现机器智能识别解题错误

想象一下,你站在黑板前,看着一位学生一步步演算数学题。作为老师,你能一眼锁定那个出错的步骤吗?这正是当前人工智能在数学推理领域面临的核心挑战。阿里巴巴研究团队近期发布的ProcessBench基准测试,目标明确:检验AI模型能否像一位经验丰富的数学教师那样,精准地揪出解题逻辑链条中的“错误步骤”,从

热心网友
05.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

2026年十大加密货币交易所排名与安全选择指南
web3.0
2026年十大加密货币交易所排名与安全选择指南

本文梳理了2026年主流数字资产交易平台的特点与选择策略。重点从安全性、资产丰富度、交易体验、创新功能及合规性等维度进行分析,旨在帮助用户根据自身需求,在众多平台中做出明智选择,而非简单罗列排名。选择平台需综合考量资金安全、操作习惯与长期发展愿景。

热心网友
05.14
2026年全球十大现货交易所排名与深度评测
web3.0
2026年全球十大现货交易所排名与深度评测

本文梳理了2026年现货交易所的竞争格局,从交易深度与流动性、资产安全与合规性、用户体验与产品创新三个维度进行深度分析。文章指出,头部平台在合规与技术创新上持续领跑,新兴交易所在细分市场寻求突破,行业整体呈现出专业化、合规化与用户体验并重的发展趋势,为不同需求的用户提供了多元选择。

热心网友
05.14
2026年最佳加密货币交易平台权威评测与推荐指南
web3.0
2026年最佳加密货币交易平台权威评测与推荐指南

本文梳理了2026年主要数字资产交易平台的综合表现,从安全性、资产多样性、用户体验及创新服务等维度进行分析。榜单反映了行业向合规与专业化发展的趋势,头部平台在技术架构与风控体系上持续投入,新兴平台则凭借细分领域创新获得关注。投资者需结合自身需求,理性评估平台特点与风险。

热心网友
05.14
Aria Networks CEO解读推理技术如何改变AI网络格局
AI
Aria Networks CEO解读推理技术如何改变AI网络格局

今年四月,AI网络初创公司Aria Networks携1 25亿美元融资高调登场,并向业界抛出了一个直指核心的判断:下一阶段AI基础设施的竞争,焦点已不仅仅是堆砌更多的GPU,而在于能否构建一个能充分释放这些算力潜能的“神经网络”。 这家由前Arista和Juniper高管创立、总部位于帕洛阿尔托的

热心网友
05.14
英伟达MIT华人团队开源技术大幅降低大模型推理内存消耗
AI
英伟达MIT华人团队开源技术大幅降低大模型推理内存消耗

仅凭一张家用RTX 4090显卡的24GB显存,就能流畅运行一个拥有320亿参数的AI大模型,一口气读完6份长文档并自动生成周报?这并非极客魔改,而是来自MIT、英伟达与浙江大学研究者的最新突破。 这项名为TriAttention的技术,精准瞄准了大模型推理中的核心瓶颈——KV缓存显存占用。其核心思

热心网友
05.14