斯坦福Bohg教授灵巧手解构物理抛弃人手崇拜ICRA2026

时间：2026-06-08 13:37

斯坦福Bohg教授指出灵巧手价值在于吞吐量与可控子空间，但遥操作困难。提出从物体轨迹学而非人手学，在仿真中训练单一RL策略实现零样本泛化，再微调完成高精度任务。当前未解决低维RL表征与视觉复杂性之间的鸿沟。

6月初的ICRA 2026上，斯坦福大学计算机科学系副教授Jeannette Bohg在Keynote环节抛出了一个直击要害的问题：“我们还需要灵巧手吗？”

这个问题之所以有力，恰恰因为它指向了当下机器人操作领域最真实的张力：二指夹爪配合端到端大模型，已经能完成魔方、精细拼装等令人叹服的任务。那么，高自由度、高复杂度的灵巧手，价值究竟在哪里？

Bohg给出了清晰的回答：灵巧手的价值不在于“像人类一样”，而在于吞吐量与可控子空间这两个维度上不可替代的优势。她举了一个例子：一名制表大师用小指稳定工具、用腕部旋转螺丝，是经过两年训练后才涌现的高效策略——这种能力，夹爪永远无法复现。

然而，灵巧手的困境同样清晰：22个自由度、多接触状态的切换，让远程操控数据采集极其困难且低效。对此，Bohg提出了实验室的核心方法论——不从人手学，从物体轨迹学。

她的研究路线分两步走：首先，在仿真中对基元物体集合训练单一RL策略，驱动策略的“目标信号”不是人手姿态，而是物体的目标位姿序列——这个目标序列来自人类视频，但经由基础模型提取出“物体在做什么”，与“人手如何移动”完全解耦。结果是一个零样本迁移泛化到大量工具与任务的单一策略。其次，将上述“泛化探索策略”作为起点，通过精调实现高精度插拔、家具组装等任务——比从头训练更快、更鲁棒，对外力干扰的抵抗力也更强。

Bohg最后坦诚地提出了尚未解决的核心问题：如何弥合“低维度RL物体表征”与“自我中心视频中蕴含的丰富视觉-物理复杂性”之间的鸿沟？这是她实验室目前正在攻坚的开放问题，也是灵巧手走向真正通用的最后一块拼图。

以下是Jeannette Bohg在ICRA 2026大会上发表的演讲精编稿，基于原英文演讲内容进行了不改原意的翻译编辑：

《Do We Still Need Dexterous Hands?》

主讲人：Jeannette Bohg，斯坦福大学

一、反问开场：二指夹爪已经这么强了，灵巧手还有位置吗？

今天想提出一个问题：我们还需要灵巧手吗？

之所以这么问，是因为两指夹爪所能做到的事情确实令人印象深刻。可以举两个例子：一个来自Generalist团队，大家应该都见过，他们用两只手两个夹爪能做出相当惊艳的操作；另一个是周一录下的视频——研究人员展示的，一个人在解那个Gearboard的拼板，可以看到这个人操作得很吃力；而右边，那个两指夹爪机器人却把这个任务完成得相当出色。把皮带套到齿轮上，这个任务其实相当难。

然而，可以肯定的是，灵巧手有它不可替代的位置。

二、为什么需要灵巧手：吞吐量与可控子空间

那么，究竟为什么要研究灵巧手？

首先是吞吐量。来看一个视频——一个学生找到的，一个人抓起工具然后用它拧紧螺丝，速度相当快。仔细看：首先是用灵巧手抓起桌上的工具，然后是“手内操作”，旋转工具对齐方向，再一次手内操作，确保工具和螺槽精确对齐。这整套动作，夹爪根本无法做到——而灵巧手能以极快的速度把它完成。

其次来看可控子空间。这里引用LASA实验室的一项研究，他们很好地分享了视频。研究的是瑞士制表师如何在任务中变得精通。左边是一个初学者——可以看到他需要用另一只手来辅助定位工具与螺丝的对齐；右边是一位专家，速度完全不同。这位专家在定位螺丝时，用的是小指来稳定工具完成对齐，完全不需要第二只手。这是一种经过两年训练才涌现出来的能力和策略。

这是夹爪永远做不到的。

三、核心挑战：22个自由度，遥操作太难——不要从人手学

说了这么多优势，也必须直面现实：控制一个22自由度、6个驱动轴的灵巧手，并处理多接触状态的切换，是极其复杂的事情。

目前有一条很流行的路线——从遥操作数据中学习。但遥操作灵巧手本身就是一个极难的问题，操控起来非常不直觉。可以从某个团队的视频里看到，用遥操作训练出来的策略行为，和刚才看到的那个人类操作截然不同——动作很慢，非常谨慎。这正是因为遥操作本身就极难操控。

所以，他们坚定地不走这条路。相反，选择sim-tool-real路线。

当然，sim-tool-real近年来因大量计算资源的投入取得了很大进展。但有一点必须指出：大多数现有工作，每个技能对应一个单独的策略——旋转用一个，稳定握持用一个，工具使用用一个。他们想做的是把这些独立的技能策略统一成一个策略。

四、UniSim-Real：从物体轨迹学，而非从人手学

那么，具体是怎么实现的？

关键洞察在于：可以将操作与物体的目标位姿统一起来。在屏幕右侧，会看到一个绿色的“幽灵物体”——那是这个策略需要追踪的目标位姿，策略需要通过所有这些手内操作和抓取来让物体匹配这个目标。

在训练阶段，他们在仿真里生成一组基元物体，并训练一个单一的RL策略，让它能够把每个物体操控到随机的目标位姿。这个策略在仿真里只有一个，输入是：手的本体感受状态、物体的包围盒、物体当前位置，以及一个目标位姿序列。

那目标位姿序列从哪里来？确实录制了人类视频示范，然后使用基础模型从视频里提取物体的位姿序列。重点在于：他们模仿的不是人手，只关心物体在做什么。提取出来的目标位姿由闭环手部跟踪来追踪执行。

有了这个洞察，就得到了一个单一策略，可以零样本完成大量操作任务——包括大量从未见过的工具和任务。与基线方法相比：固定抓取不work，因为完成任务必须改变物体的手内朝向；运动学重定向也通常不稳定。

斯坦福Jeannette Bohg教授：抛弃“人手崇拜”，灵巧手要「解构物理」

五、Play-to-Effect：从“游玩”到“精确插拔”

现在，策略能在灵巧手上通过RL学到各种有趣的行为，能干很多事情。但也发现：它并不能很好地完成装配任务。

装配任务需要精确度。测试表明：如果两个零件之间的间隙比较宽松，这个策略有时能成功，但成功率不够高；间隙越紧，成功率越低。

于是问题来了：能不能把这个已经内嵌了所有原子技能的“游玩策略”作为预训练起点，再微调它去做更精确的操作？

将“游玩策略”作为预训练基础，针对一系列精确插拔任务进行微调。在推理时，使用基础模型来追踪待操作零件和固定件的位姿，以关键点序列和目标抓取朝向作为输入。

测试结果包括：插销任务、宜家基准测试的铰链组装、家具基准测试（将桌腿插入桌面的榫眼）。“Play-to-Effect”在所有这些任务上都有出色表现——比起游玩策略有明显提升，训练速度也很快（甚至比从头用稠密奖励训练还快），同时对引入外力干扰的抵抗力也更强。

更令人兴奋的是：这是一个闭环策略，当物体从手里掉落，它会主动捡起来再试。这种恢复行为，正是闭环策略的本质优势。

斯坦福Jeannette Bohg教授：抛弃“人手崇拜”，灵巧手要「解构物理」

六、尚未解决的问题：低维RL与富信息视频之间的鸿沟

最后，以几点反思来收尾。

用RL在这个拟人手上学习到了这些非常有趣的行为。核心在于：完全不关心人手的历史动作轨迹，只关心物体是否在沿着轨迹运动、是否完成了任务。

因为用了RL，实际上并不需要绑定在拟人手上。完全可以使用那些具有仿生主动表面的非拟人设计的手——这些手不需要像拟人手那样做接触状态切换。而且，对于这样的手，永远没办法通过模仿人手来驱动它。所以，同样的方法论——先游玩再精确，再完成任务——对非拟人手同样适用。

但RL也有它的局限性：通过模仿学习，已经有人在用人类视频做训练，但他们是在模仿人手本身，而这条路正受制于运动学重定向的天花板。

今天上午还展示了另一项成果——《Masquerade》。不是直接模仿人类的动作，而是在人类视频中用机器人手替换掉人类的手，从而让数据完美包含任务需求，并以此训练视觉编码器。这种方法彻底弥合了域偏移带来的差距，在分布外泛化上表现特别优异。

斯坦福Jeannette Bohg教授：抛弃“人手崇拜”，灵巧手要「解构物理」

最终，正在思考的开放问题是：如何弥合“在任何手上都能学到的全套行为”与“自我中心视频中蕴藏的丰富视觉-物理复杂性”之间的鸿沟？这是实验室接下来要一起攻克的课题。

感谢所有合作者，也特别感谢Sharpa赞助并提供了这些灵巧手。谢谢大家！

Q&A 问答环节

听众A（主持人）：

您在谈到弥合仿真到现实的差距时，尤其是针对仿真中难以处理的物体（比如柔性物体或有复杂交互的物体，如挤压喷瓶），您怎么看待这个问题？

Jeannette Bohg：

简单介绍一下是怎么做这个sim-to-real迁移的。使用了域随机化——不仅随机化物体本身（形状、大小），也随机化环境的物理属性。更关键的是，还必须在仿真里模拟有噪声的物体检测和位姿估计，以及传感器延迟——这些对于真正把仿真策略迁移到真实世界至关重要，包括对外力扰动的模拟。

对于铰接物体，完全可以想象用同样的方法，只是提高物体表征的维度——比如用物体的关节状态来代表物体状态。视觉社区能不能为我们提供鲁棒的位姿估计，是关键的外部依赖。

对于布料、面团这类厨房场景里的柔性物体——坦率说，目前还不知道怎么做。一个猜想是：也许可以在刚体和铰接物体上预训练，然后结合已有的示范数据（比如折叠衣物的工作），进行微调。或者，如果有人能提供更快的柔性体仿真框架，仍然可以走RL这条路。

听众B：

您认为如何把这些策略功能化，整合进一个用于各类物体操作的基础模型？我看到这里所有的策略都是相对专一的，下一步是否可以把它们作为模块，嵌入到类似Action Expert这样的更大型操控模型里？

Jeannette Bohg：

很好的问题。首先澄清一下：选择工具不是因为要专门做工具操作——而是因为工具是灵巧手最难操作的对象之一，对技能要求最高。同样的训练框架，完全可以扩展到更多类型的物体，只是还没能来得及做。

关于“能不能把这个策略作为VLA模型的Action Head”——这个想法很有意思，之前还没想到过。一个可能的方向是：把策略蒸馏到以RGB或深度图像为输入，然后输入到VLA的某个表征层，再微调。但这需要更多时间讨论，目前还只是直觉。

来源：https://www.leiphone.com/category/robot/7bIdz0Vi001jq6lt.html

灵巧手

上一篇久坐腰疼怎么办？2026年第二季度按摩腰带测评 下一篇千元级尼克尔Z 28mm f/2.8 SE复古挂机头1728元

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。