新加坡国立大学研发机器人模仿人类动作技术

新加坡国立大学Show Lab实验室近期发布了一项突破性研究,其预印本论文(arXiv:2605.12038)为机器人学习领域带来了一个极具启发性的新框架。这项研究精准地切入了一个行业核心痛点:如何高效地让形态各异的人形机器人学会人类的复杂动作?
机器人缺少“动作教材”,怎么办?
教孩子学骑车,最好的方法是亲身示范。然而,直接将这段人类示范视频丢给机器人,却往往行不通。根本原因在于:人类的身体由肌肉和韧带驱动,而机器人是钢铁之躯,依靠电机和传感器行动,两者的“身体语言”存在本质差异。
更棘手的是,机器人世界“型号林立”。从特斯拉的Optimus到优必选的Walker,再到Figure 03,每一款都有独特的机械结构、外观和自由度。想让它们都学会同一个动作,难道要为每一款都专门制作配套的教学视频吗?这显然费时费力,且无法跟上机器人快速迭代的节奏。
正是为了破解这个规模化难题,新加坡国立大学的团队提出了OmniHumanoid框架。其核心思想非常巧妙:将“动作的灵魂”与“机器人的躯壳”进行解耦学习。动作是通用的“语言”,而每款机器人的外形是独特的“口音”。系统先掌握动作的通用规律,再为不同机器人匹配其专属的“口音”。这样一来,面对一款全新机器人,系统只需认识它的“长相”,而无需从头学习所有动作。
一、问题的根源:动作与外表纠缠在一起
不妨用一个比喻来理解其中的难点。假设任务是将一段姚明打篮球的视频,“翻译”成机器人打篮球的视频。这至少面临四重挑战:
首先,身体语言不通用。人类关节的运动角度和范围,与机器人的机械关节截然不同,生搬硬套只会导致动作畸形或根本无法执行。
其次,缺乏配对数据。理想的训练素材是“人类做动作”与“机器人做同一动作”的同步视频对,但这种数据在现实中成本极高,难以大规模获取。
再次,机器人形态复杂多样。不同机器人的自由度、外观差异巨大,通用视频编辑工具在处理时,极易产生肢体扭曲、身份混淆等问题。
最后,生成速度慢。高质量视频生成往往需要数十步迭代,耗时几分钟,无法满足大规模生成训练数据的需求。
OmniHumanoid的设计,正是为了系统性攻克这四大障碍。
二、TAPE原则:一个统一的设计哲学
研究团队为系统制定了四条设计准则,合称TAPE原则:
- Transferable motion(可迁移的运动)
- Adaptation, paired-free(无配对数据适应)
- Preservation of embodiment(形体保真)
- Efficiency in generation(生成效率)
这好比一位顶级翻译所需具备的素质:精准把握原意(可迁移)、无需逐字对照也能翻译(无配对适应)、译文符合目标语言习惯(形体保真)、且翻译迅捷(高效)。OmniHumanoid正是沿着这四个维度构建的。
三、核心架构:两个分工明确的“学习部门”
OmniHumanoid基于扩散变换器(DiT)模型构建,其内部可以理解为两个职能清晰的部门。
第一个是共享运动迁移模型。它专门分析源视频(如人类动作),从中提炼出“动作的本质”——节奏、轨迹、与环境的交互时序。这个部门学习的是“举手投足”的通用规律,而非执行者的具体外貌。
第二个是形体专属LoRA模块。LoRA是一种轻量化的“个性化插件”。每款机器人都有一个专属LoRA,仅存储其外形特征,如关节形状、颜色、比例。需要生成某款机器人的视频时,只需加载对应的“皮肤包”即可。
这种分工带来了关键优势:面对新款机器人,无需重新训练庞大的共享运动模型,只需为其训练一个轻量的LoRA插件。更重要的是,训练这个插件不需要配对数据,只需一些该机器人的普通视频让它“认脸”即可。
四、单向信息流:防止“串味”的关键设计
分工明确固然好,但若两个部门信息随意互通,就会产生“污染”。如果外形特征渗入运动模型,模型学到的动作就可能带有特定机器人的偏好,影响其泛化能力。
为此,团队设计了单向信息流机制。技术上讲,这是一个不对称的注意力掩码。规则很简单:负责生成最终视频的分支(包含形体LoRA)可以读取运动分支的信息,但运动分支完全不受形体LoRA的影响。
形象地说,运动部门是“指挥官”,只下达“做什么动作”的指令;形体部门是“执行者”,负责用自己独特的身体语言完成指令。指令只能单向传递,确保“指挥官”的判断不被“执行者”的风格所干扰。
实验结果印证了这一设计的重要性。取消单向流后,形体一致性评分从8.43暴跌至2.53,运动一致性也从9.06降至6.35。这证明信息干扰是质量下降的主因,而单向设计有效隔离了它。
五、两阶段训练:先“认脸”,再“学动作”
基于上述架构,训练过程逻辑清晰地分为两阶段:
第一阶段:形体LoRA预训练。对于每款已知机器人(或人类角色),系统仅观看其普通视频(无需配对)。此阶段,主干模型参数冻结,只更新对应的LoRA参数,让系统记住“它长什么样”。
第二阶段:共享运动迁移训练。此阶段需要使用配对视频数据(不同形体做相同动作)。此时所有LoRA冻结,只更新共享运动模型。为防止模型偏爱某一特定形体,团队采用了滚动LoRA加载策略——每50个训练步骤就轮换激活的LoRA模块,确保运动模型学到的是动作的通用精髓,而非某个形体的特定风格。
对于全新机器人,适配过程极其高效:准备几十段它的视频,训练一个新LoRA插件即可,共享运动模型完全无需改动。这为实现低成本、大规模扩展铺平了道路。
六、合成数据集:专门“定制”的训练素材
优秀的系统需要优质的训练数据,但现实中“不同机器人做相同动作”的配对视频几乎不存在。为此,团队利用Unity引擎自行构建了一个合成数据集。
思路如同拍摄同一剧本的多版本舞台剧:剧本、场景、机位全部固定,只更换演员。团队从Humoto运动库选取了超700种人形运动序列,涵盖操作、行走、日常活动等类别。随后,将这些动作“适配”到十款不同的形体上(包括五款机器人和五款数字人)。
关键在于骨骼对齐。团队在Blender中将所有角色的骨骼统一拓扑,并在Unity中完成动作重定向,确保“弯曲右臂”等指令在所有形体上同步发生。
场景方面,从网络3D平台收集了100个多样化环境。最终,以1920×1080分辨率、30帧/秒渲染视频,形成了7200个跨场景的配对训练样本。为严格测试泛化能力,Unitree G1机器人被完全保留在测试集中,从未参与训练。
七、流式蒸馏:让速度从蜗牛变成猎豹
生成质量高但速度慢,实用性依然受限。原始扩散模型需50步去噪,生成速度仅0.10帧/秒。OmniHumanoid的双向生成器在此框架下,生成10秒视频约需100秒。
为提升效率,团队引入了流式视频到视频蒸馏技术。可以理解为让一个“资深教师”(慢速但精准的双向模型)去教导一个“学生”(快速的因果流式模型)。学生直接学习教师的精华判断,无需重复其漫长的计算过程。
这个“学生”模型采用因果注意力结构——生成当前片段时,只能依据之前已生成的内容,无法“预知”未来。这使其能够以“自回归”方式一段接一段地生成视频,极大节省算力。
蒸馏过程分两步:先初始化学生模型的基本能力,再通过“自强迫少步蒸馏”进行优化,结合教师模型的分布对齐指导(VSD损失)和对抗判别器(GAN损失)来提升细节。
最终效果显著:去噪步骤从50步压缩至4步,推理速度从0.10帧/秒跃升至4.96帧/秒,提升近50倍。在单张NVIDIA H200 GPU上,可实现720p分辨率的实时生成。代价是生成质量略有下降,但关键指标如形体一致性仍保持在8.09,综合质量依然领先于其他基准方法。
八、实验结果:全面领先的效能表现
团队在两个测试场景下进行了全面评估:
1. 合成保留形体基准测试:针对完全陌生的Unitree G1机器人。OmniHumanoid在像素级重建质量指标上全面领先:PSNR达25.47(优于X-Humanoid的23.03),SSIM为0.9039,MSE低至0.0033。在运动一致性(9.06)、形体一致性(8.43)、背景一致性(9.94)及综合得分(7.92)上均位列第一。
2. 真实世界基准测试:使用50段人类日常及机器人演示的真实视频。由于无配对真值,采用Gemini 3 Flash模型进行无参考评估。在此测试中,快手的Kling O1以8.53的综合分略高于OmniHumanoid的8.39。但值得注意的是,OmniHumanoid在运动一致性(8.47对7.49)和形体一致性(8.56对8.46)两个核心维度上均优于Kling O1,仅在背景一致性和总体得分上稍有差距。
用户研究结果与自动化指标高度一致:参与者在运动保真度、形体相似性、背景一致性和整体质量四个维度上,均显著偏好OmniHumanoid的结果(偏好率在62.6%至72.7%之间),全面领先于其他方法。
九、研究的局限性与未来方向
当然,OmniHumanoid并非没有局限。在4步推理的蒸馏模式下,其生成视频在精细细节、时间平滑度及复杂动作保真度上,与50步的“教师模型”相比仍有可见差距。这本质上是速度与质量之间不可避免的权衡。
团队也坦诚这一点,并指出未来将探索更先进的蒸馏策略来缩小差距,例如优化目标函数或设计更高效的少步推理流程。
归根结底,OmniHumanoid实现了一次思路的转变。它将“动作是什么”和“谁来做动作”这两个问题解耦,使得新机器人只需少量未配对视频就能接入一个积累了丰富动作知识的系统。这从“为每款机器人重新造轮子”,转向了“为每款机器人适配专属轮毂”,而共享的底盘和发动机则得以复用。
随着人形机器人行业加速演进,形态各异的机器人正层出不穷。OmniHumanoid所提供的这种高效、可扩展的路径,很可能成为未来机器人通过“观察”来学习技能的重要基础设施。对技术细节感兴趣的读者,可通过论文编号arXiv:2605.12038查阅全文。
Q&A
Q1:OmniHumanoid需要为每款新机器人准备配对视频数据吗?
A:不需要。这正是其核心优势——“无配对适应”。对于全新机器人,只需提供一批该机器人的普通视频(无需与其他形体动作配对),系统即可训练出对应的形体插件(LoRA)。共享运动模型完全无需重新训练,极大降低了扩展成本。
Q2:OmniHumanoid的流式生成速度有多快,对硬件有什么要求?
A:经流式蒸馏后,推理步骤压缩至4步,生成速度提升至4.96帧/秒,较原始速度提升近50倍。在单张NVIDIA H200 GPU上,可实现720p分辨率实时生成。目前方案依赖高端GPU,其对消费级硬件的适配性尚未在论文中详细探讨。
Q3:OmniHumanoid的单向信息流设计去掉后效果会差多少?
A:差距非常显著。消融实验表明,去掉单向设计(允许动作与形体分支相互影响)后,形体一致性评分从8.43骤降至2.53,运动一致性评分也从9.06跌至6.35。这证实了两个分支间的信息干扰是导致生成质量崩溃的关键,单向设计是框架中最核心的技术贡献之一。
相关攻略
新加坡国立大学团队提出OmniHumanoid框架,解决机器人学习人类动作的规模化难题。该框架将通用动作规律与机器人外形解耦,通过共享运动模型和轻量形体插件实现高效适配,无需配对数据,仅需少量视频即可训练新机器人。经流式蒸馏优化后生成速度显著提升,测试表现领先,为机器人通过观察学。
上海泰和污水处理厂投运全国首套“海陆空”机器人智能巡检系统,整合轮式、四足、无人机及无人船,搭载多类传感器,实现全自动、全天候立体巡检。通过统一AI平台协同作业,系统显著减少人工工时,提升应急响应与风险识别能力,推动水务运维智能化转型。上海计划进一步推广该应用,加速智慧水。
足下科技与沛岱科技达成战略合作,共同推进具身智能发展。沛岱科技提供高物理性合成数据,提升机器人虚拟训练效果并助力向真实世界迁移;足下科技借此强化其“大小脑”平台,增强复杂场景下的泛化与闭环能力。双方通过高质量数据与系统化训练,旨在缩短仿真到现实的差距,加速机器。
工信部发布《人形机器人全生命周期管理规范》,要求每台机器人配备唯一29位“身份证号”,覆盖国家、企业、型号及序列信息,以解决身份识别、安全监管与责任追溯难题。目前已为2 8万余台机器人赋码,并通过配套管理服务平台实现生产到回收的全链条闭环管控,旨在提升产业规范水平,增强我国机器。
上海浦东新区试点人机协同城管执法,无人机负责空中侦察,人形机器人辅助地面人员进行普法宣传与答疑。该模式旨在构建立体执法网络,提升问题发现与现场沟通效率,并非替代人力。未来将基于试点效果评估推广,有望拓展至重点商圈等复杂治理场景。
热门专题
热门推荐
香港金融市场即将迎来备受瞩目的Solana现货ETF,这一举措预示着投资者将能通过传统证券交易所更便捷地参与到Solana的投资中。此举不仅为Solana生态系统注入了新的活力,也可能引发新一轮的数字资产投资热潮。 一、解读Solana ETF:连接传统与未来的桥梁 简单来说,Solana ETF是
高性能公链Solana(SOL)入门指南:技术解读与主流购买渠道 在区块链技术快速演进的今天,一个旨在解决可扩展性难题的公链脱颖而出,它就是Solana。本文将为您系统梳理Solana的核心技术特点,并介绍如何通过主流交易平台获取其原生代币SOL,助您全面认识这一高性能网络。 一、Solana(SO
本期介绍了《侠义OL》中扇、手、戟、刃四件神秘级别神器的属性。阴阳八卦扇与灭世龙牙刃攻击力均为1804点,玄武伏魔手为1255点,鬼神方天戟则以2039点居首。四者均需50级佩戴,且各附有25点待激活的神秘属性,潜力巨大,值得玩家深入探索与搭配。
龙魂是锻造顶级神兵“八神兵器”的核心。熔炼从基础龙魂碎片开始,逐步合成初级、中级、高级龙魂,需消耗游戏币与前置材料。龙魂之上可淬炼龙元与高级龙元,需特定材料。所有兑换均需寻找临安城的欧冶子传人完成。
《雷霆骑士团》新手需合理规划资源:前期优先培养橙色主力,紫色佣兵无需全员升阶。佣兵升级与装备强化可无损继承,可放心投入。卡关后使用快速探险与资源副本,收益更高。钻石优先用于快速探险和主城征收,46级后再投入英雄召唤。日常半价招募令及高折扣急需资源可酌情购买。





