机器人双臂协同操作一直是技术难点——两只机械手需要像人类一样默契配合,才能完成单臂无法胜任的复杂任务。以往的方法要么依赖大量人工标注数据,要么训练成本极其高昂,更致命的是,一旦遇到未见过的物体类别,模型几乎立刻“失效”。其根本原因在于:机器人缺乏有效的“常识”迁移能力。
近日,新加坡国立大学LinS Lab带来了一项令人瞩目的突破——他们提出的 Bi-Adapt 框架,巧妙地将视觉基础模型(Vision Foundation Models)引入双臂操作领域。核心思路非常直观:让机器人学会识别物体之间的“语义对应”关系。举个例子,如果它已经掌握了开瓶子的方式,就能将类似的操作经验迁移到开罐子上,即便罐子的外形、材质截然不同。

1 研究背景与创新点
双臂操作是机器人执行复杂任务的“杀手锏”,但现有技术存在两大短板:一是数据采集与训练成本居高不下,二是泛化能力薄弱——模型在训练集上表现优异,换作陌生物体便立刻崩溃。Bi-Adapt正是针对这两大痛点而设计。它基于视觉基础模型构建了一个轻量级框架,核心武器是语义对应(semantic correspondence),使机器人能够跨类别理解物体的可操作区域(affordance)。
具体而言,只需为新类别物体提供极少量样本(few-shot),Bi-Adapt即可灵活适配,甚至在零样本场景下也能稳定运行。这意味着什么呢?意味着机器人不再需要为每一个陌生物体重新训练,操作能力一下子“活”了起来。

2 主要贡献
这项工作的价值体现在三个层面:
- 首先,提出了一个基于基础模型的统一框架,使双臂操作真正实现跨类别、跨任务的泛化,不再局限于训练时的物体清单。
- 其次,设计了一套结合接触点选择(contact point selection)的少样本适配策略。这个细节至关重要——机器人在操作新物体时,两只手的接触点如何选取、如何配合,直接决定任务成败。Bi-Adapt通过语义对应找到的“最佳抓取点”,显著增强了双臂协同能力。
- 最后,团队在仿真环境和真实机器人上进行了系统评估,覆盖5类复杂任务及多种物体类别。结果非常扎实:在数据极度受限的条件下,成功率依然保持在高位。
3 总结与展望
Bi-Adapt的技术路线十分清晰:利用语义对应解决跨类别的affordance迁移问题,借助少样本学习实现新类别的快速适配。这样一来,即使仅有极其有限的交互数据,机器人也能在从未见过的物体上稳定执行双臂操作。从实验数据来看,它在新颖类别(novel categories)上的适应性能既稳定又高效——这才是真正面向实际部署的解决方案。
如果你想深入了解技术细节,可以查看他们的项目主页和论文(arXiv已上线),相关代码也已开源。
