游乐游手机版
首页/业界动态/文章详情

斯坦福Bohg教授灵巧手解构物理抛弃人手崇拜ICRA2026

时间:2026-06-08 13:37
斯坦福Bohg教授指出灵巧手价值在于吞吐量与可控子空间,但遥操作困难。提出从物体轨迹学而非人手学,在仿真中训练单一RL策略实现零样本泛化,再微调完成高精度任务。当前未解决低维RL表征与视觉复杂性之间的鸿沟。

6月初的ICRA 2026上,斯坦福大学计算机科学系副教授Jeannette Bohg在Keynote环节抛出了一个直击要害的问题:“我们还需要灵巧手吗?”

这个问题之所以有力,恰恰因为它指向了当下机器人操作领域最真实的张力:二指夹爪配合端到端大模型,已经能完成魔方、精细拼装等令人叹服的任务。那么,高自由度、高复杂度的灵巧手,价值究竟在哪里?

Bohg给出了清晰的回答:灵巧手的价值不在于“像人类一样”,而在于吞吐量与可控子空间这两个维度上不可替代的优势。她举了一个例子:一名制表大师用小指稳定工具、用腕部旋转螺丝,是经过两年训练后才涌现的高效策略——这种能力,夹爪永远无法复现。

然而,灵巧手的困境同样清晰:22个自由度、多接触状态的切换,让远程操控数据采集极其困难且低效。对此,Bohg提出了实验室的核心方法论——不从人手学,从物体轨迹学。

她的研究路线分两步走:首先,在仿真中对基元物体集合训练单一RL策略,驱动策略的“目标信号”不是人手姿态,而是物体的目标位姿序列——这个目标序列来自人类视频,但经由基础模型提取出“物体在做什么”,与“人手如何移动”完全解耦。结果是一个零样本迁移泛化到大量工具与任务的单一策略。其次,将上述“泛化探索策略”作为起点,通过精调实现高精度插拔、家具组装等任务——比从头训练更快、更鲁棒,对外力干扰的抵抗力也更强。

Bohg最后坦诚地提出了尚未解决的核心问题:如何弥合“低维度RL物体表征”与“自我中心视频中蕴含的丰富视觉-物理复杂性”之间的鸿沟?这是她实验室目前正在攻坚的开放问题,也是灵巧手走向真正通用的最后一块拼图。

以下是Jeannette Bohg在ICRA 2026大会上发表的演讲精编稿,基于原英文演讲内容进行了不改原意的翻译编辑:

《Do We Still Need Dexterous Hands?》

主讲人:Jeannette Bohg,斯坦福大学

一、反问开场:二指夹爪已经这么强了,灵巧手还有位置吗?

今天想提出一个问题:我们还需要灵巧手吗?

之所以这么问,是因为两指夹爪所能做到的事情确实令人印象深刻。可以举两个例子:一个来自Generalist团队,大家应该都见过,他们用两只手两个夹爪能做出相当惊艳的操作;另一个是周一录下的视频——研究人员展示的,一个人在解那个Gearboard的拼板,可以看到这个人操作得很吃力;而右边,那个两指夹爪机器人却把这个任务完成得相当出色。把皮带套到齿轮上,这个任务其实相当难。

然而,可以肯定的是,灵巧手有它不可替代的位置。

二、为什么需要灵巧手:吞吐量与可控子空间

那么,究竟为什么要研究灵巧手?

首先是吞吐量。来看一个视频——一个学生找到的,一个人抓起工具然后用它拧紧螺丝,速度相当快。仔细看:首先是用灵巧手抓起桌上的工具,然后是“手内操作”,旋转工具对齐方向,再一次手内操作,确保工具和螺槽精确对齐。这整套动作,夹爪根本无法做到——而灵巧手能以极快的速度把它完成。

其次来看可控子空间。这里引用LASA实验室的一项研究,他们很好地分享了视频。研究的是瑞士制表师如何在任务中变得精通。左边是一个初学者——可以看到他需要用另一只手来辅助定位工具与螺丝的对齐;右边是一位专家,速度完全不同。这位专家在定位螺丝时,用的是小指来稳定工具完成对齐,完全不需要第二只手。这是一种经过两年训练才涌现出来的能力和策略。

这是夹爪永远做不到的。

三、核心挑战:22个自由度,遥操作太难——不要从人手学

说了这么多优势,也必须直面现实:控制一个22自由度、6个驱动轴的灵巧手,并处理多接触状态的切换,是极其复杂的事情。

目前有一条很流行的路线——从遥操作数据中学习。但遥操作灵巧手本身就是一个极难的问题,操控起来非常不直觉。可以从某个团队的视频里看到,用遥操作训练出来的策略行为,和刚才看到的那个人类操作截然不同——动作很慢,非常谨慎。这正是因为遥操作本身就极难操控。

所以,他们坚定地不走这条路。相反,选择sim-tool-real路线。

当然,sim-tool-real近年来因大量计算资源的投入取得了很大进展。但有一点必须指出:大多数现有工作,每个技能对应一个单独的策略——旋转用一个,稳定握持用一个,工具使用用一个。他们想做的是把这些独立的技能策略统一成一个策略。

四、UniSim-Real:从物体轨迹学,而非从人手学

那么,具体是怎么实现的?

关键洞察在于:可以将操作与物体的目标位姿统一起来。在屏幕右侧,会看到一个绿色的“幽灵物体”——那是这个策略需要追踪的目标位姿,策略需要通过所有这些手内操作和抓取来让物体匹配这个目标。

在训练阶段,他们在仿真里生成一组基元物体,并训练一个单一的RL策略,让它能够把每个物体操控到随机的目标位姿。这个策略在仿真里只有一个,输入是:手的本体感受状态、物体的包围盒、物体当前位置,以及一个目标位姿序列。

那目标位姿序列从哪里来?确实录制了人类视频示范,然后使用基础模型从视频里提取物体的位姿序列。重点在于:他们模仿的不是人手,只关心物体在做什么。提取出来的目标位姿由闭环手部跟踪来追踪执行。

有了这个洞察,就得到了一个单一策略,可以零样本完成大量操作任务——包括大量从未见过的工具和任务。与基线方法相比:固定抓取不work,因为完成任务必须改变物体的手内朝向;运动学重定向也通常不稳定。

斯坦福Jeannette Bohg教授:抛弃“人手崇拜”,灵巧手要「解构物理」

五、Play-to-Effect:从“游玩”到“精确插拔”

现在,策略能在灵巧手上通过RL学到各种有趣的行为,能干很多事情。但也发现:它并不能很好地完成装配任务。

装配任务需要精确度。测试表明:如果两个零件之间的间隙比较宽松,这个策略有时能成功,但成功率不够高;间隙越紧,成功率越低。

于是问题来了:能不能把这个已经内嵌了所有原子技能的“游玩策略”作为预训练起点,再微调它去做更精确的操作?

将“游玩策略”作为预训练基础,针对一系列精确插拔任务进行微调。在推理时,使用基础模型来追踪待操作零件和固定件的位姿,以关键点序列和目标抓取朝向作为输入。

测试结果包括:插销任务、宜家基准测试的铰链组装、家具基准测试(将桌腿插入桌面的榫眼)。“Play-to-Effect”在所有这些任务上都有出色表现——比起游玩策略有明显提升,训练速度也很快(甚至比从头用稠密奖励训练还快),同时对引入外力干扰的抵抗力也更强。

更令人兴奋的是:这是一个闭环策略,当物体从手里掉落,它会主动捡起来再试。这种恢复行为,正是闭环策略的本质优势。

斯坦福Jeannette Bohg教授:抛弃“人手崇拜”,灵巧手要「解构物理」

六、尚未解决的问题:低维RL与富信息视频之间的鸿沟

最后,以几点反思来收尾。

用RL在这个拟人手上学习到了这些非常有趣的行为。核心在于:完全不关心人手的历史动作轨迹,只关心物体是否在沿着轨迹运动、是否完成了任务。

因为用了RL,实际上并不需要绑定在拟人手上。完全可以使用那些具有仿生主动表面的非拟人设计的手——这些手不需要像拟人手那样做接触状态切换。而且,对于这样的手,永远没办法通过模仿人手来驱动它。所以,同样的方法论——先游玩再精确,再完成任务——对非拟人手同样适用。

但RL也有它的局限性:通过模仿学习,已经有人在用人类视频做训练,但他们是在模仿人手本身,而这条路正受制于运动学重定向的天花板。

今天上午还展示了另一项成果——《Masquerade》。不是直接模仿人类的动作,而是在人类视频中用机器人手替换掉人类的手,从而让数据完美包含任务需求,并以此训练视觉编码器。这种方法彻底弥合了域偏移带来的差距,在分布外泛化上表现特别优异。

斯坦福Jeannette Bohg教授:抛弃“人手崇拜”,灵巧手要「解构物理」

最终,正在思考的开放问题是:如何弥合“在任何手上都能学到的全套行为”与“自我中心视频中蕴藏的丰富视觉-物理复杂性”之间的鸿沟?这是实验室接下来要一起攻克的课题。

感谢所有合作者,也特别感谢Sharpa赞助并提供了这些灵巧手。谢谢大家!

Q&A 问答环节

听众A(主持人):

您在谈到弥合仿真到现实的差距时,尤其是针对仿真中难以处理的物体(比如柔性物体或有复杂交互的物体,如挤压喷瓶),您怎么看待这个问题?

Jeannette Bohg:

简单介绍一下是怎么做这个sim-to-real迁移的。使用了域随机化——不仅随机化物体本身(形状、大小),也随机化环境的物理属性。更关键的是,还必须在仿真里模拟有噪声的物体检测和位姿估计,以及传感器延迟——这些对于真正把仿真策略迁移到真实世界至关重要,包括对外力扰动的模拟。

对于铰接物体,完全可以想象用同样的方法,只是提高物体表征的维度——比如用物体的关节状态来代表物体状态。视觉社区能不能为我们提供鲁棒的位姿估计,是关键的外部依赖。

对于布料、面团这类厨房场景里的柔性物体——坦率说,目前还不知道怎么做。一个猜想是:也许可以在刚体和铰接物体上预训练,然后结合已有的示范数据(比如折叠衣物的工作),进行微调。或者,如果有人能提供更快的柔性体仿真框架,仍然可以走RL这条路。

听众B:

您认为如何把这些策略功能化,整合进一个用于各类物体操作的基础模型?我看到这里所有的策略都是相对专一的,下一步是否可以把它们作为模块,嵌入到类似Action Expert这样的更大型操控模型里?

Jeannette Bohg:

很好的问题。首先澄清一下:选择工具不是因为要专门做工具操作——而是因为工具是灵巧手最难操作的对象之一,对技能要求最高。同样的训练框架,完全可以扩展到更多类型的物体,只是还没能来得及做。

关于“能不能把这个策略作为VLA模型的Action Head”——这个想法很有意思,之前还没想到过。一个可能的方向是:把策略蒸馏到以RGB或深度图像为输入,然后输入到VLA的某个表征层,再微调。但这需要更多时间讨论,目前还只是直觉。

来源:https://www.leiphone.com/category/robot/7bIdz0Vi001jq6lt.html
上一篇久坐腰疼怎么办?2026年第二季度按摩腰带测评 下一篇千元级尼克尔Z 28mm f/2.8 SE复古挂机头1728元
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
中关村论坛年会AI未来论坛聚焦跃迁投资共生
业界动态 · 2026-06-30

中关村论坛年会AI未来论坛聚焦跃迁投资共生

3月30日,中关村国际创新中心成为人工智能领域瞩目的焦点——2026中关村论坛年会人工智能主题日的重要活动“AI未来论坛:跃迁·投资·共生”在此正式拉开帷幕。本次论坛传递出一个清晰的信号:人工智能正从技术突破迈向产业落地的关键阶段,而资本信心的背后,映射出产业演进的明确风向。海淀区明确表态,将以开放

泰国CP AXTRA与菜鸟合作复制中国闪购模式
业界动态 · 2026-06-30

泰国CP AXTRA与菜鸟合作复制中国闪购模式

3月27日,菜鸟集团与泰国正大集团旗下核心零售企业CP AXTRA正式签署战略合作协议。此次合作的核心目标十分明确:菜鸟将充分发挥自身在数字供应链技术、仓储自动化领域的技术优势,以及多年深耕海外仓的运营经验,全力支持CP AXTRA在泰国及东盟国家打造一套线上线下一体化的即时零售物流网络。 CP A

云英谷科技VTDR6135参评SID中国区显示行业奖
业界动态 · 2026-06-30

云英谷科技VTDR6135参评SID中国区显示行业奖

云英谷科技携国内首颗支持1 5KRealRGB显示的AMOLED驱动芯片VTDR6135参评SID中国区显示行业奖。该芯片已量产并用于高端手机,采用28nm制程,支持240Hz刷新率,集成自研APDBI技术与烧屏补偿机制。在ICDT2026大会C06展位展示。

马斯克警告柏林工厂扩张受外部干预需保自主
业界动态 · 2026-06-30

马斯克警告柏林工厂扩张受外部干预需保自主

3月1日消息,特斯拉CEO埃隆·马斯克向柏林工厂的员工传递了一个信号:如果工厂无法在“不受外界干扰”的环境下自主运转,那么后续的扩建计划可能需要延后。这番话源自一段提前录制的视频,由马斯克在得克萨斯州奥斯汀与格伦海德工厂厂长安德烈·蒂里格共同完成录制,随后在柏林超级工厂内部播放给员工观看。 这段视频

高通钱堃博鳌谈构建用户中心智能生态
业界动态 · 2026-06-30

高通钱堃博鳌谈构建用户中心智能生态

高通钱堃指出,AI正重塑人机交互,2026年称为智能体之年。6G被设计为AI原生系统,2026年为标准化关键年,高通已与近60家伙伴达成共识。高通构建以用户为中心的智能生态系统,通过端-边-云协同架构,结合5G 6G技术,并推出AI加速计划,推动个人、物理、工业AI规模化应用。