在机器人操作领域,一个显著的趋势是研究焦点正从桌面协作机械臂转向人形双臂操作。这种范式转移带来的核心挑战是什么?视觉遮挡。简而言之,当机器人使用双臂执行任务时,自身的手臂、工具或被操作物体很容易遮挡摄像头的视野,导致关键操作区域产生盲区。传统方法通常依赖固定视角或多视角拼接,但在复杂遮挡场景下,效果往往不尽如人意。
这里的关键洞察在于:视觉遮挡问题的本质并非“看不见”,而是“缺乏支撑任务执行的充足信息”。基于这一理解,我们提出了一个更基础的问题——探索性与聚焦性操作(Exploratory and Focused Manipulation, EFM)。简单来说,就是让机器人主动去“观察”那些被遮挡的区域,或者精确聚焦于某个微小范围,从而完成那些需要探索或高精度操作的任务。围绕这一课题,团队构建了EFM-10基准,提出了一种双臂主动感知(BAP)策略,并收集了BAPData数据集。通过模仿学习实验,验证了BAP策略的有效性,同时分析了主流操作策略模型的优缺点及典型失败原因——这些工作为这一方向奠定了初步基础。

EFM-10基准:四大类任务的标准化定义
EFM-10基准是研究EFM问题的首个标准化载体。它将探索与聚焦能力拆分为四个维度,并定义了10个典型任务,便于全球研究者在仿真或真实环境中复现。
- 语义探索类:要求机器人探索场景中隐藏的语义属性。例如Toy-Find(寻找玩具)和Toy-Match(玩具配对),需要机器人“理解”被遮挡物体的身份。
- 视觉遮挡探索类:要求机器人通过主动变换视角,捕捉被遮挡的操作区域。典型任务如Cup-Hang(挂杯子)和Box-Push(推箱子),一旦手臂遮挡视线,机器人必须自行调整“视角”。
- 聚焦精细操作类:依赖于对操作区域的清晰聚焦,才能完成精细动作。例如Light-Plug(插入小灯插头)和Nail-Knock(敲钉子),精度要求极高,毫厘之差即失败。
- 兼具探索与聚焦的复杂类:既需要场景探索,又需要规避遮挡,同时还要进行精细操作。例如Cable-Match(匹配线缆接口)和Charger-Plug(插入充电器),这类任务对机器人的综合能力提出了最高要求。

双臂主动感知(BAP)策略:用非操作臂充当“眼睛”
在硬件设计上,许多机器人采用主动颈部(可转动)来获取视角,但自由度有限,且与人形双臂的布局不一定兼容。我们提出的BAP策略无需高自由度的主动颈部,直接利用非操作臂提供手眼主动视觉——换句话说,让空闲的那只手携带摄像头,想看哪里就指向哪里。同时,操作臂在接触物体时还能提供力传感器反馈,支撑细粒度操作。该方案与基于颈部的主动视觉完全兼容,两者结合可最大化多视角相机的利用率。

BAPData数据集:1850条真实双臂演示数据
为使上述策略真正落地,我们采集了BAPData数据集。硬件平台采用JAKA K-1双臂机器人,内置6D力传感器,配备头部相机和腕部相机。通过VR遥操作进行数据采集,以10Hz频率记录操作过程中的双臂运动轨迹、视觉数据及力传感数据。总共包含1850条真实演示数据,覆盖EFM-10的全部10个任务。这些数据为细粒度双臂操作的模仿学习提供了坚实的数据基础。
