新加坡国立大学研发机器人模仿人类动作技术

时间：2026-05-24 20:57

新加坡国立大学团队提出OmniHumanoid框架，解决机器人学习人类动作的规模化难题。该框架将通用动作规律与机器人外形解耦，通过共享运动模型和轻量形体插件实现高效适配，无需配对数据，仅需少量视频即可训练新机器人。经流式蒸馏优化后生成速度显著提升，测试表现领先，为机器人通过观察学。

新加坡国立大学Show Lab实验室近期发布了一项突破性研究，其预印本论文（arXiv:2605.12038）为机器人学习领域带来了一个极具启发性的新框架。这项研究精准地切入了一个行业核心痛点：如何高效地让形态各异的人形机器人学会人类的复杂动作？

机器人缺少“动作教材”，怎么办？

教孩子学骑车，最好的方法是亲身示范。然而，直接将这段人类示范视频丢给机器人，却往往行不通。根本原因在于：人类的身体由肌肉和韧带驱动，而机器人是钢铁之躯，依靠电机和传感器行动，两者的“身体语言”存在本质差异。

更棘手的是，机器人世界“型号林立”。从特斯拉的Optimus到优必选的Walker，再到Figure 03，每一款都有独特的机械结构、外观和自由度。想让它们都学会同一个动作，难道要为每一款都专门制作配套的教学视频吗？这显然费时费力，且无法跟上机器人快速迭代的节奏。

正是为了破解这个规模化难题，新加坡国立大学的团队提出了OmniHumanoid框架。其核心思想非常巧妙：将“动作的灵魂”与“机器人的躯壳”进行解耦学习。动作是通用的“语言”，而每款机器人的外形是独特的“口音”。系统先掌握动作的通用规律，再为不同机器人匹配其专属的“口音”。这样一来，面对一款全新机器人，系统只需认识它的“长相”，而无需从头学习所有动作。

一、问题的根源：动作与外表纠缠在一起

不妨用一个比喻来理解其中的难点。假设任务是将一段姚明打篮球的视频，“翻译”成机器人打篮球的视频。这至少面临四重挑战：

首先，身体语言不通用。人类关节的运动角度和范围，与机器人的机械关节截然不同，生搬硬套只会导致动作畸形或根本无法执行。

其次，缺乏配对数据。理想的训练素材是“人类做动作”与“机器人做同一动作”的同步视频对，但这种数据在现实中成本极高，难以大规模获取。

再次，机器人形态复杂多样。不同机器人的自由度、外观差异巨大，通用视频编辑工具在处理时，极易产生肢体扭曲、身份混淆等问题。

最后，生成速度慢。高质量视频生成往往需要数十步迭代，耗时几分钟，无法满足大规模生成训练数据的需求。

OmniHumanoid的设计，正是为了系统性攻克这四大障碍。

二、TAPE原则：一个统一的设计哲学

研究团队为系统制定了四条设计准则，合称TAPE原则：

Transferable motion（可迁移的运动）
Adaptation, paired-free（无配对数据适应）
Preservation of embodiment（形体保真）
Efficiency in generation（生成效率）

这好比一位顶级翻译所需具备的素质：精准把握原意（可迁移）、无需逐字对照也能翻译（无配对适应）、译文符合目标语言习惯（形体保真）、且翻译迅捷（高效）。OmniHumanoid正是沿着这四个维度构建的。

三、核心架构：两个分工明确的“学习部门”

OmniHumanoid基于扩散变换器（DiT）模型构建，其内部可以理解为两个职能清晰的部门。

第一个是共享运动迁移模型。它专门分析源视频（如人类动作），从中提炼出“动作的本质”——节奏、轨迹、与环境的交互时序。这个部门学习的是“举手投足”的通用规律，而非执行者的具体外貌。

第二个是形体专属LoRA模块。LoRA是一种轻量化的“个性化插件”。每款机器人都有一个专属LoRA，仅存储其外形特征，如关节形状、颜色、比例。需要生成某款机器人的视频时，只需加载对应的“皮肤包”即可。

这种分工带来了关键优势：面对新款机器人，无需重新训练庞大的共享运动模型，只需为其训练一个轻量的LoRA插件。更重要的是，训练这个插件不需要配对数据，只需一些该机器人的普通视频让它“认脸”即可。

四、单向信息流：防止“串味”的关键设计

分工明确固然好，但若两个部门信息随意互通，就会产生“污染”。如果外形特征渗入运动模型，模型学到的动作就可能带有特定机器人的偏好，影响其泛化能力。

为此，团队设计了单向信息流机制。技术上讲，这是一个不对称的注意力掩码。规则很简单：负责生成最终视频的分支（包含形体LoRA）可以读取运动分支的信息，但运动分支完全不受形体LoRA的影响。

形象地说，运动部门是“指挥官”，只下达“做什么动作”的指令；形体部门是“执行者”，负责用自己独特的身体语言完成指令。指令只能单向传递，确保“指挥官”的判断不被“执行者”的风格所干扰。

实验结果印证了这一设计的重要性。取消单向流后，形体一致性评分从8.43暴跌至2.53，运动一致性也从9.06降至6.35。这证明信息干扰是质量下降的主因，而单向设计有效隔离了它。

五、两阶段训练：先“认脸”，再“学动作”

基于上述架构，训练过程逻辑清晰地分为两阶段：

第一阶段：形体LoRA预训练。对于每款已知机器人（或人类角色），系统仅观看其普通视频（无需配对）。此阶段，主干模型参数冻结，只更新对应的LoRA参数，让系统记住“它长什么样”。

第二阶段：共享运动迁移训练。此阶段需要使用配对视频数据（不同形体做相同动作）。此时所有LoRA冻结，只更新共享运动模型。为防止模型偏爱某一特定形体，团队采用了滚动LoRA加载策略——每50个训练步骤就轮换激活的LoRA模块，确保运动模型学到的是动作的通用精髓，而非某个形体的特定风格。

对于全新机器人，适配过程极其高效：准备几十段它的视频，训练一个新LoRA插件即可，共享运动模型完全无需改动。这为实现低成本、大规模扩展铺平了道路。

六、合成数据集：专门“定制”的训练素材

优秀的系统需要优质的训练数据，但现实中“不同机器人做相同动作”的配对视频几乎不存在。为此，团队利用Unity引擎自行构建了一个合成数据集。

思路如同拍摄同一剧本的多版本舞台剧：剧本、场景、机位全部固定，只更换演员。团队从Humoto运动库选取了超700种人形运动序列，涵盖操作、行走、日常活动等类别。随后，将这些动作“适配”到十款不同的形体上（包括五款机器人和五款数字人）。

关键在于骨骼对齐。团队在Blender中将所有角色的骨骼统一拓扑，并在Unity中完成动作重定向，确保“弯曲右臂”等指令在所有形体上同步发生。

场景方面，从网络3D平台收集了100个多样化环境。最终，以1920×1080分辨率、30帧/秒渲染视频，形成了7200个跨场景的配对训练样本。为严格测试泛化能力，Unitree G1机器人被完全保留在测试集中，从未参与训练。

七、流式蒸馏：让速度从蜗牛变成猎豹

生成质量高但速度慢，实用性依然受限。原始扩散模型需50步去噪，生成速度仅0.10帧/秒。OmniHumanoid的双向生成器在此框架下，生成10秒视频约需100秒。

为提升效率，团队引入了流式视频到视频蒸馏技术。可以理解为让一个“资深教师”（慢速但精准的双向模型）去教导一个“学生”（快速的因果流式模型）。学生直接学习教师的精华判断，无需重复其漫长的计算过程。

这个“学生”模型采用因果注意力结构——生成当前片段时，只能依据之前已生成的内容，无法“预知”未来。这使其能够以“自回归”方式一段接一段地生成视频，极大节省算力。

蒸馏过程分两步：先初始化学生模型的基本能力，再通过“自强迫少步蒸馏”进行优化，结合教师模型的分布对齐指导（VSD损失）和对抗判别器（GAN损失）来提升细节。

最终效果显著：去噪步骤从50步压缩至4步，推理速度从0.10帧/秒跃升至4.96帧/秒，提升近50倍。在单张NVIDIA H200 GPU上，可实现720p分辨率的实时生成。代价是生成质量略有下降，但关键指标如形体一致性仍保持在8.09，综合质量依然领先于其他基准方法。

八、实验结果：全面领先的效能表现

团队在两个测试场景下进行了全面评估：

1. 合成保留形体基准测试：针对完全陌生的Unitree G1机器人。OmniHumanoid在像素级重建质量指标上全面领先：PSNR达25.47（优于X-Humanoid的23.03），SSIM为0.9039，MSE低至0.0033。在运动一致性（9.06）、形体一致性（8.43）、背景一致性（9.94）及综合得分（7.92）上均位列第一。

2. 真实世界基准测试：使用50段人类日常及机器人演示的真实视频。由于无配对真值，采用Gemini 3 Flash模型进行无参考评估。在此测试中，快手的Kling O1以8.53的综合分略高于OmniHumanoid的8.39。但值得注意的是，OmniHumanoid在运动一致性（8.47对7.49）和形体一致性（8.56对8.46）两个核心维度上均优于Kling O1，仅在背景一致性和总体得分上稍有差距。

用户研究结果与自动化指标高度一致：参与者在运动保真度、形体相似性、背景一致性和整体质量四个维度上，均显著偏好OmniHumanoid的结果（偏好率在62.6%至72.7%之间），全面领先于其他方法。

九、研究的局限性与未来方向

当然，OmniHumanoid并非没有局限。在4步推理的蒸馏模式下，其生成视频在精细细节、时间平滑度及复杂动作保真度上，与50步的“教师模型”相比仍有可见差距。这本质上是速度与质量之间不可避免的权衡。

团队也坦诚这一点，并指出未来将探索更先进的蒸馏策略来缩小差距，例如优化目标函数或设计更高效的少步推理流程。

归根结底，OmniHumanoid实现了一次思路的转变。它将“动作是什么”和“谁来做动作”这两个问题解耦，使得新机器人只需少量未配对视频就能接入一个积累了丰富动作知识的系统。这从“为每款机器人重新造轮子”，转向了“为每款机器人适配专属轮毂”，而共享的底盘和发动机则得以复用。

随着人形机器人行业加速演进，形态各异的机器人正层出不穷。OmniHumanoid所提供的这种高效、可扩展的路径，很可能成为未来机器人通过“观察”来学习技能的重要基础设施。对技术细节感兴趣的读者，可通过论文编号arXiv:2605.12038查阅全文。

Q&A

Q1：OmniHumanoid需要为每款新机器人准备配对视频数据吗？
A：不需要。这正是其核心优势——“无配对适应”。对于全新机器人，只需提供一批该机器人的普通视频（无需与其他形体动作配对），系统即可训练出对应的形体插件（LoRA）。共享运动模型完全无需重新训练，极大降低了扩展成本。

Q2：OmniHumanoid的流式生成速度有多快，对硬件有什么要求？
A：经流式蒸馏后，推理步骤压缩至4步，生成速度提升至4.96帧/秒，较原始速度提升近50倍。在单张NVIDIA H200 GPU上，可实现720p分辨率实时生成。目前方案依赖高端GPU，其对消费级硬件的适配性尚未在论文中详细探讨。

Q3：OmniHumanoid的单向信息流设计去掉后效果会差多少？
A：差距非常显著。消融实验表明，去掉单向设计（允许动作与形体分支相互影响）后，形体一致性评分从8.43骤降至2.53，运动一致性评分也从9.06跌至6.35。这证实了两个分支间的信息干扰是导致生成质量崩溃的关键，单向设计是框架中最核心的技术贡献之一。

来源：https://www.163.com/dy/article/KTIJCLDI0511DTVV.html

机器人

上一篇中科院新方法让AI学会从错误中学习大模型像人类一样自主纠错 下一篇雅迪上市十年三次破局之路深度解析

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。