上海AI实验室、上海交通大学、浙江大学、香港大学和香港中文大学联合团队取得了一项重大技术突破。他们发布了名为BeamDojo的强化学习框架,核心目标在于:使人形机器人能够在落脚点稀疏、危险系数极高的复杂地形上,实现精细的落脚点精准控制。据了解,这是首个通过学习方法达成此类成果的技术。
那么,这项技术的难点究竟在哪里?
在人形机器人领域,走平衡木、踏梅花桩等任务远非表面看起来那么简单。机器人需要极其精准地处理感知信息,将双脚准确落在安全区域,同时维持躯干稳定——一旦稍有偏差,就可能失衡跌落。这背后主要存在两大技术挑战。
首先,四足机器人虽然在稀疏落脚点行走方面已较为成熟,但其脚掌多为点状接触,而人形机器人的脚掌是多边形结构。针对点状脚设计的落脚点奖励机制,直接应用于多边形脚掌时完全失效。其次,当前基于学习的人形机器人研究,在面对复杂地形与精细落脚点灵活运动时,奖励信号极为稀疏,导致学习效率低下,难以获得可靠的感知信息。
为此,BeamDojo框架应运而生。它专门针对这类“危险地形”精心设计,使G1人形机器人能够在稀疏落脚点上灵活穿梭。
在演示画面中,G1机器人能稳定穿越多个面积狭小(约20厘米宽)、间距各异的踏脚石,犹如现代版梅花桩。更令人惊叹的是,它甚至能够倒退着完成这一挑战。


面对20厘米宽的平衡木?自然也不在话下。

在平衡性测试中,即使背负6千克重物并承受外部干扰,G1机器人依然能够稳稳穿越这些复杂地形。


网友评论恰如其分:“越看越像人形机器人去少林寺训练进修了,疑是中国功夫片场景流出。”

那么,BeamDojo究竟如何实现这一突破?其核心创新点主要体现在以下几个方面:
首先是两阶段强化学习训练策略。第一阶段在平地上训练机器人,通过输入地形参数,使算法在安全环境中完成预学习;第二阶段切换至实际任务地形进行策略优化。这种设计显著提升了学习效率。
其次,团队为多边形脚掌量身定制了基于采样的落脚点奖励机制,并采用“双评价器”架构,以平衡密集移动奖励与稀疏落脚点奖励之间的学习过程。
在感知层面,该框架配备了基于激光雷达的高程地图系统,使机器人能够实时感知地形细节,为精准落脚提供可靠数据支撑。
最关键的突破在于零样本泛化能力。G1在训练过程中从未接触过稀疏地形或平衡木,但借助BeamDojo,它能够直接在各类稀疏落脚点地形上完成任务,无需额外训练。
实验结果显示,BeamDojo在模拟环境中实现了高效学习,在现实世界中同样表现优异——即使遭遇较大外部干扰,机器人依然能保持较高成功率,实现精准落脚与灵活移动。未来,该框架还可进一步应用于沟壑等更具挑战性的复杂地形。

