游乐游手机版
首页/AI热点日报/热点详情

OpenHLM释放人形机器人全身移动操作能力

类型:热点整理2026-07-04
先看一个非常生动的场景:一台人形机器人自主走到平台前,下蹲拾起地上的瓶子,移动到垃圾桶旁,用脚踩下踏板,将瓶子投入桶中,随后转身返回。全程由智能策略驱动,无需远程人工操控,且训练仅使用了20条来自同一室外场景的示范数据。 从本质上讲,这项技术正是在复刻人类日常生活中的一项基本能力——协调全身来完成复

先看一个非常生动的场景:一台人形机器人自主走到平台前,下蹲拾起地上的瓶子,移动到垃圾桶旁,用脚踩下踏板,将瓶子投入桶中,随后转身返回。全程由智能策略驱动,无需远程人工操控,且训练仅使用了20条来自同一室外场景的示范数据。

从本质上讲,这项技术正是在复刻人类日常生活中的一项基本能力——协调全身来完成复杂的移动操作任务。例如,打开垃圾桶时需要踩下踏板,从低处取物时需要弯腰下蹲,推车时手臂抓握与腿部移动必须同步配合。对于人形机器人而言,其身体不应仅仅被视作“机械臂加移动底盘”,而应成为一个有机整体,像人类一样能够协调手、腰、腿、脚,共同完成连贯的运动任务。

那么,在当前视觉-语言-动作模型(VLA)能力飞速发展的背景下,我们究竟该如何构建一套高效的视觉-语言-动作学习系统,让人形机器人在语言和视觉指令的引导下,像真人一样自如地执行这些全身协调的移动操作任务?

针对这一核心难题,清华大学交叉信息研究院的最新研究成果——OpenHLM,提供了一套面向人形机器人全身移动操作的开源VLA解决方案。

不再只是「会走路的双臂平台」:OpenHLM解放人形机器人的全身移动操作能力

  • 论文标题:OpenHLM: An Empirical Recipe for Whole-Body Humanoid Loco-Manipulation
  • 论文链接:https://arxiv.org/abs/2606.22174
  • 项目主页:https://openhlm-project.github.io/

一套真正适用于广泛移动操作任务的人形机器人系统,需要满足哪些基本条件?研究团队提出了三项核心原则,直击关键:

  • 系统必须实现真正的全身控制。人形机器人的VLA策略绝不能将下半身仅仅视为一个可移动的底座,它必须能够调动手臂、腰部、膝盖和双脚。下蹲拾取低处物品、用脚踩踏踏板等动作,都应纳入机器人的能力范围内。
  • 系统必须支持语言驱动。当用户下达不同的指令时,机器人应能使用同一个模型完成各类任务,而不必为每个任务单独训练一个模型,更无需在使用过程中频繁切换模型。
  • 系统必须能通过低成本数据进行扩展。全身遥操作虽然能提供高质量数据,但其采集成本高、重置时间长,难以覆盖所有新物体和新场景。一个可扩展的系统应能利用更廉价的数据来源,例如原地站定遥操作,或无需真实机器人参与的HuMI(人形机器人版本的UMI),从而避免能力扩展完全依赖于昂贵且繁琐的全身遥操作流程。

围绕这三个要求,研究团队开展了一系列系统性实验,逐步确定了全身VLA的关键设计要素。整个过程划分为三个清晰的阶段:全身控制与遥操作、VLA设计、以及异构数据协同训练。

不再只是「会走路的双臂平台」:OpenHLM解放人形机器人的全身移动操作能力

第一阶段的实验聚焦于全身控制与遥操作接口。遥操作不仅仅是一种数据采集工具,它直接决定了哪些自由度会被暴露给模型,进而影响模型最终能够学习到的行为模式。实验结论清晰:与仅暴露部分自由度的上下身解耦控制、三关键点遥操作(VR 3-point),以及维度更高且冗余的人体SMPL动作表示相比,直接面向机器人关节空间的全身遥操作,才是最适合用于后续VLA数据采集的方法。

不再只是「会走路的双臂平台」:OpenHLM解放人形机器人的全身移动操作能力

第二组实验旨在探索如何将已有的VLA模型迁移到人形机器人的全身动作空间。许多VLA模型是在固定机械臂或轮式双臂平台上预训练的,而人形机器人的动作空间维度要高得多。实验发现了几项关键结论:其一,来自非人形机器人数据的预训练,仍然能够提供有价值的操作先验知识;其二,相比之下,动作格式、本体感知输入等接口层面的适配选择对最终表现影响不大,单一项并不构成性能瓶颈;其三,VLA采用多步流(multi-step flow)生成动作的方案,其表现显著优于单步方案。因此,OpenHLM的最终配方是:保留非人形机器人的预训练结果、保留本体感知输入、输出绝对关节值,并使用多步流来生成动作。

不再只是「会走路的双臂平台」:OpenHLM解放人形机器人的全身移动操作能力

第三组实验,也是最值得关注的部分,研究了如何在完整全身遥操作之外实现低成本扩展。虽然完整的全身遥操作能够为学习全身移动操作任务提供全程的高质量监督信号,但其高昂的采集成本也限制了其向更多任务和物体的推广。为此,OpenHLM引入了两类成本更低的数据源:站定遥操作数据,以及无需机器人实体即可采集的手持终端演示数据(HuMI),并将它们与全身遥操作数据进行协同训练。结果非常有趣:这些“实惠”的数据同样能够帮助VLA模型扩展到新任务。特别是成本最低的HuMI数据,尽管与真实机器人之间存在明显的视觉和动作域差异,但依然能够通过少量数据带来针对新物体和新指令的泛化能力。当然,对于需要全新运动模式的任务,在当前条件下效果仍然有限,这有待后续研究进一步深化。

不再只是「会走路的双臂平台」:OpenHLM解放人形机器人的全身移动操作能力

所有这些实验,均以HLM-12任务集合作为主要的评测平台。HLM-12包含12个任务,覆盖了四类典型的全身移动操作能力:从基础的行走与抓放组合,到借助躯干扩展操作范围(如下蹲取物),再到运用手部以外的身体部位完成操作(如用脚踩住垃圾桶踏板后再投放),最后到环境约束下的操作(如双手握把推车)。

不再只是「会走路的双臂平台」:OpenHLM解放人形机器人的全身移动操作能力

这12个任务涵盖了若干极具代表性的日常移动操作场景,为全面评估不同系统的全身能力提供了更坚实的基础。

不再只是「会走路的双臂平台」:OpenHLM解放人形机器人的全身移动操作能力

最后,OpenHLM与其他基线方法在一个长程语言条件任务上进行了系统级对比。机器人需要根据指令,从两张不同高度的桌子上分别拿起指定的水果,然后走到高货架前,将它们依次放入顶层的两个容器中。这个任务设计极具代表性,移动与操作反复交替,涵盖了行走、调整姿态、抓取、放置、转身以及在高处进行操作等一系列连贯动作。实验结果显示,采用低成本HuMI数据协同训练的OpenHLM,在演示时长不到两个强基线(GR00T N1.6与Ψ0)一半的情况下,取得了显著更高的平均任务进度——87.5%,远高于GR00T N1.6的57.5%和Ψ0的48.8%,并且十分接近全身遥操作oracle的97.5%水平。

不再只是「会走路的双臂平台」:OpenHLM解放人形机器人的全身移动操作能力

从“会走路的双臂平台”进化为真正能协调全身的人形机器人,中间仍有许多系统性问题需要解答。OpenHLM提供的并非一个封闭的最终答案,而是一条围绕这些核心问题展开的开放性实验路线:如何采集全身行为数据、如何让VLA适配人形机器人的高维动作空间、如何利用低成本数据扩展新任务,以及如何用统一的基准来评估这些能力。对于希望构建通用人形机器人操作系统的研究者而言,这套经验配方提供了一个明确的起点。

作者团队

本项工作的五位共同第一作者均来自清华大学:胡英东、郑博远、胡亦行、张彤为交叉信息研究院高阳课题组的博士研究生(胡英东、张彤为准毕业生),朱昊东为自动化系本科生。高阳课题组专注于具身智能方向的研究,致力于开发具备泛化能力的通用机器人系统。该团队已在ICML、ICLR、CoRL、IROS等机器学习与机器人学习领域的顶级会议上发表多篇论文。OpenHLM项目得到了清华大学交叉信息研究院、上海期智研究院以及千寻智能公司的大力支持。

来源:https://www.aitntnews.com/newDetail.html?newId=26655

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。