卢宗青团队推出通用机器人模型人类先验实现动作对齐

首页

热心网友

转载

2026-05-16

如果说过去几年大模型革命解决的是“机器能否理解与表达”，那么机器人行业真正要攻克的核心难题，则在于更深一层：机器能否在物理世界中，将感知与决策转化为精准、稳定的连续动作，并在长期、复杂、充满不确定性的真实场景中保持可靠执行。

具身智能的真正挑战，从来不是完成一次完美的实验室演示，而在于当环境改变、物体更换、硬件平台差异或任务链条延长时，系统能否依然稳健工作。现实中，机器人策略的通用化与实用化，面临三大结构性瓶颈。

第一是形态割裂。机械臂、二指夹爪、多指灵巧手、人形上肢等不同形态的机器人，其关节定义、自由度、动作空间存在本质差异，导致数据与模型难以互通。一个训练好的策略往往绑定特定硬件，更换平台几乎意味着从零开始。

第二是数据成本与覆盖度瓶颈。真实机器人数据采集昂贵、规模有限、场景分布狭窄，难以覆盖长时序任务、复杂物理交互以及多样化物体操作，更无法支撑跨形态的泛化学习。

第三是部署系统的稳定性缺失。许多视觉-语言-动作模型在仿真或离线评测中表现优异，但一旦部署到真实机器人，控制频率不匹配、动作抖动、误差累积、多臂协同冲突等问题便会暴露。这并非模型智能不足，而是缺乏面向真实闭环控制系统的鲁棒性机制。

因此，行业表面在竞逐更高的基准测试分数，但深层的竞争已转向另一维度：谁能训练出真正通用的机器人策略，并将其稳定、可靠地部署到多样化的真实硬件上，谁就更可能跨越从实验室研究到产品化落地的关键门槛。

在此背景下，智在无界创始人卢宗青团队发表的论文《Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization》，提出了一条更贴近工程闭环的通用机器人操控技术路径。

其核心思路并非简单堆砌更大模型或更多数据，而是从根本问题出发：通过以人类为中心的大规模操控数据建立跨形态的动作先验；通过统一的状态-动作空间解决不同硬件之间“语言不通”的障碍；再结合更强的动作生成模型与面向真实系统的稳定部署机制，系统性地回答一个关键问题：通用机器人策略能否在多种形态的平台上稳定工作，并真正实现落地部署？

通用性能逼近专用

这项工作的实验价值，不在于简单宣称更高的成功率，而在于围绕一个核心命题进行验证：单一模型能否同时学会操控不同形态的机器人（甚至包括模仿人手动作模式），并且在真实机器人部署时，依然保持高稳定性与可靠性。

为此，研究团队将实验结果分为三类呈现：真实机器人实验、仿真基准测试和消融实验分析。

在真实机器人实验中，研究人员设定了两种模型配置。一种是Being-H0.5-specialist（专用型），针对特定机器人进行深度优化与对齐，旨在追求该平台上的极致性能。另一种是Being-H0.5-generalist（通用型），要求同一个模型适配多种机器人形态，目标是验证其跨平台泛化与迁移能力。

总体结论显示，专用型模型的综合性能最优，而通用型模型的表现与之差距很小。关键在于，两者在许多任务类别上的表现非常接近，尤其是在那些依赖通用技能、动作模式相似的任务上，性能几乎持平。

进一步，研究团队将真实机器人任务按能力需求划分为空间类任务、长程任务、双臂协同任务和泛化任务。结果发现，Being-H0.5相比基线模型π0.5的性能提升，在长程任务和双臂任务中最为显著。

这一点至关重要。长程任务通常包含多个连续步骤，微小的动作误差会不断累积，极易导致后续失败；而双臂任务需要两只机械臂实时协调，对动作时序同步与空间耦合要求极高。因此，这两类任务最能检验策略是否具备真正可部署的长期稳定性。

此外，研究还观察到一个有趣现象：在某些任务中，例如清理桌面这类涉及容器整理和物品收纳的交互场景，通用型模型的表现有时甚至接近或超过专用型模型。直观来看，这类任务需要反复调用抓取、移动、放置等通用子技能。通用型模型由于在更多机器人形态和更多任务中学习过类似的动作结构，往往表现得更稳健。相比之下，专用型模型虽然对单一机器人优化更深，但也可能对某些特定动作习惯产生过拟合。

在关键的消融实验中，研究团队重点分析了UniHand-2.0预训练的必要性。结论表明，对于专用型模型，即使没有这项预训练，也能通过后续的机器人微调获得相当能力。但对于通用型模型而言，如果缺少UniHand-2.0预训练，则会出现明显的性能下降，在多机器人混合学习中更容易表现出能力不足或行为不稳定。

这说明，UniHand-2.0的作用不仅仅是扩大数据规模，更是为训练过程提供了一种跨形态共享的操控“先验”，让模型能够理解合理动作的分布规律，从而更高效地吸收来自不同机器人形态的动作数据。为支撑这种跨形态操控能力学习，研究团队构建的UniHand-2.0数据集总规模超过35,000小时，包含1200亿令牌和4亿样本，融合了人类第一视角手部操作数据（16K小时）、覆盖30种机器人形态的机器人操控数据（14K小时），以及视觉语言理解数据（约5K等效小时），为模型提供了丰富的动作先验与语义对齐基础。

在仿真基准测试中，Being-H0.5在LIBERO基准上取得了强劲表现，平均成功率达到98.9%，在更具挑战性的长程子集LIBERO-Long上也达到了97.4%，且仅使用224×224的RGB图像输入。

考虑到LIBERO基准具有多任务、多场景以及显著的长程操作链特点，如此接近99%的成功率表明，模型不仅能够执行动作，还具备了很强的任务稳定性、闭环纠错能力以及对序列动作结构的学习能力。

此外，在更贴近真实家庭场景的RoboCasa厨房任务基准（包含24个任务，涉及多物体、多容器及频繁接触交互）中，Being-H0.5在整体对比中同样领先多个基线方法（包括部分基于3D信息的方法）。这说明模型不仅在桌面任务上有效，也能在更复杂的家庭操作场景中保持较强性能，在RoboCasa基准上取得了53.9%的成功率。

最后，在部署相关实验中，研究团队强调，模型的真实可用性不仅取决于训练策略，也极度依赖部署系统的稳定性。因此，他们引入了MPG（动作流形引导）和UAC（统一异步控制器）两个关键机制。MPG的作用是抑制不合理的动作输出，使动作保持在合理分布的“流形”附近；UAC则用于解决感知帧率与控制频率不同步带来的时序问题。

消融结果显示，一旦移除MPG和UAC，长程任务的性能下降最为明显，双臂任务也会显著变差，更容易出现抖动、犹豫或过度修正等现象。这一结果说明，部署时的稳定性机制对长程和双臂任务的可靠执行至关重要。这也体现了这项工作与许多只关注离线评估或仿真成功率的研究不同，它更重视解决真实部署系统中的时序同步和动作稳定性问题。

对齐与生成并重

为实现上述效果，研究团队主要设计了五个阶段的工作：训练数据体系构建、跨形态动作对齐、模型训练架构设计、下游评估验证以及消融实验分析。

首先，在数据构建阶段，研究人员搭建了UniHand-2.0数据集。这套数据并非传统意义上只收集机器人数据，而是融合了三类来源：人类第一视角手部操作数据（16K小时）、覆盖30种机器人形态的机器人操控数据（14K小时），以及视觉语言理解数据（约5K等效小时）。UniHand-2.0总规模超过35,000小时，包含1200亿令牌和4亿样本，为跨形态操控能力学习提供了扎实的数据基础。

这样设计的核心动机，是为了缓解真实机器人数据昂贵、稀缺且覆盖有限的问题。同时，利用人类手部动作数据的丰富性与自然性，可以提供更大规模的操控先验；再通过视觉语言模型数据补齐语言理解与场景语义的能力缺口，从而形成面向操控任务的多模态预训练材料库。

其次，在跨形态对齐阶段，这项工作引入了统一状态-动作空间，以解决不同形态动作空间不一致带来的训练困难。例如，人手关节空间与机器人关节空间不同，不同机器人之间的动作维度也存在差异，若直接拼接动作进行训练，会导致模型混乱。

为此，研究人员将不同形态的状态与动作映射到统一的状态-动作空间，使模型学习通用的操控语义，而非某一种硬件的具体关节角度，从而实现跨机器人的知识共享与迁移。

在模型训练架构上，研究团队采用了混合专家（MoT）与混合流（MoF）的组合，使模型同时具备理解能力与动作生成能力。其中，理解专家负责处理图像与语言信息，形成任务意图表示；动作专家负责输出连续动作与长序列控制。通过混合流（MoF）来提升动作生成的表达能力，最终形成了Being-H0.5模型体系。

随后，在下游评估阶段，研究人员采用真实机器人与仿真基准相结合的方式进行验证。仿真部分在LIBERO和RoboCasa上进行，以保证可复现性与横向对比性；真实机器人部分则用于检验闭环控制表现，以及在硬件噪声、时序不同步与误差累积条件下的部署稳定性。通过专用型与通用型的对比，进一步衡量通用模型带来的性能代价。

最后，在消融实验中，研究团队从三方面验证了关键设计的有效性：去掉UniHand-2.0预训练，以检验以人为中心的预训练对通用型模型的必要性；去掉MPG与UAC，以评估部署稳定性机制是否关键；通过冻结不同层数，探索全量更新与部分更新在性能与稳定性上的差异。从而更系统地分析模型能力来源与关键模块的贡献。

从研究走向落地

从实验意义来看，这项工作的结果为通用机器人策略的发展提供了关键证据与可行路径。

首先，它证明了跨形态统一动作学习是可行的。传统机器人学习往往是一个模型只适配一种硬件，换机器人就要重训，数据也难以共享，导致训练成本高、复用效率低。而这项实验结果表明，只要实现动作空间的统一，并配合足够强的预训练，让多机器人共享同一套策略是能够做到的。并且，通用型模型的性能只比专用型略低，甚至在不少任务上接近。这直接提升了机器人基础模型路线的现实可行性。

其次，这项工作强调，人类手部视频与动作数据并非辅助，而是通用策略的“底座”。消融实验显示，UniHand-2.0中以人类为中心的预训练，是通用型模型保持稳定能力的关键因素。这意味着，人类动作数据为策略提供了更合理、更自然的动作先验，从而增强了其泛化能力与跨机器人迁移能力。同时，UniHand-2.0庞大的数据规模也说明，这种人类中心预训练具备足够的数据支撑。

第三，工作指出了机器人智能的真正难点在于可部署的长程稳定性，而不仅是离线或仿真的成功率。许多视觉语言动作模型在仿真中表现不错，但部署到真实机器人时，容易出现抖动、动作发散、延迟累积导致失败，甚至双臂互相干扰。研究通过MPG与UAC的实验结果说明，要让基础策略真正可部署，必须显式地解决动作分布约束与异步控制问题，使策略在真实系统中保持稳定可靠。

最后，研究也提供了一个较清晰的通用模型训练范式：通过大规模人类中心数据建立操控先验，通过统一状态-动作空间实现跨形态对齐，通过更强的动作生成建模能力提升控制表达，并结合稳定部署机制提高真实环境下的执行可靠性。

整体来看，它不是依靠某一个单点技巧，而是从数据、对齐、生成到部署稳定性，进行了端到端的全链路构建。因此，这套方法更具备可扩展性，也更接近通用机器人操控智能的未来发展方向。

研究背后的科研团队

这项研究由智在无界创始人卢宗青团队主导。卢宗青是北京大学计算机学院长聘副教授，国家青年人才，北京智源学者。其主要研究方向包括强化学习、多模态大模型和具身智能，在相关领域顶级会议和期刊上发表论文100余篇，并担任ICML、ICLR、NeurIPS等机器学习顶级会议的领域主席。该研究工作获得了国家自然科学基金原创探索项目的资助。