港大与字节跳动合作让机器人观察人类学技能

时间：2026-07-02 10:18

这项研究的核心其实非常贴近生活直觉：我们每天看到无数人类做家务、整理厨房的视频，那么，能不能让机器人直接“看”这些视频来学习干活呢？这个想法听起来很有吸引力，但实际操作起来，却暗藏着一个巨大的陷阱。研究团队投入了大量精力，不仅精准定位了这个陷阱，还设计出了一套巧妙的解决方案来绕过它。这项由香港大学

这项研究的核心其实非常贴近生活直觉：我们每天看到无数人类做家务、整理厨房的视频，那么，能不能让机器人直接“看”这些视频来学习干活呢？这个想法听起来很有吸引力，但实际操作起来，却暗藏着一个巨大的陷阱。研究团队投入了大量精力，不仅精准定位了这个陷阱，还设计出了一套巧妙的解决方案来绕过它。

这项由香港大学HKU-MMLab与字节跳动Seed团队联合开展的研究，以预印本形式于2026年6月26日发布在arXiv平台，论文编号为arXiv:2606.28133。如果你对此感兴趣，可以直接搜索这个编号查阅完整论文，深入了解机器人模仿学习的详细技术细节。

一、机器人学徒的烦恼：为什么直接“抄”人类动作行不通

让我们先设想一下这个挑战。假如你是一个刚入职的厨房学徒，师傅让你通过观看前辈切菜的视频来学习刀工。视频里的前辈用的是专业大刀，而你手边只有一把普通水果刀。即便你把前辈每一个手腕扭转的角度都记录下来，照着做的时候也可能切得一团糟——因为刀具形状不同，适合大刀的握法和角度对水果刀来说完全是另一回事。

当你意识到双臂机器人和人类手部运动机制的关系，就会明白这背后的逻辑其实相当直观。机器人的末端执行器是两个夹爪，就像两把平行的夹子；人类的手则有五根手指，可以灵巧地捏、握、钩、绕。当我们用计算机视觉技术从人类操作视频中提取手腕的“姿态”——包括位置和朝向——再让机器人照着做时，问题就出现了：人类手腕扭转一定角度是为了让五根手指配合着抓住物品，但机器人的夹爪根本不需要那个角度，强行模仿只会让夹爪对着错误的方向夹空气。

更糟糕的是，从视频里提取人类手腕的旋转角度本身就不准确。计算机视觉算法估算手腕朝向时会产生误差，就像用尺子量一个不停颤抖的物体，每次读数都略有不同。把这些带噪声的旋转数据喂给机器人，结果就是机器人做出奇怪的扭曲动作，完全没有抓住人类操作的本质。

研究团队在实验中直接验证了这一点：当把从人类视频提取的完整六自由度腕部动作（位置加旋转）输入机器人时，机器人会做出变形、偏离目标的奇怪姿势，根本无法完成任务，这也凸显了机器人模仿学习中动作表示的重要性。

二、关键洞察：扔掉旋转，保留平移

研究团队把这个想法翻来覆去地打磨，最终抓住了一个非常关键的洞察：无论人类还是机器人，在操作物体时，“手腕（或夹爪）需要移动到哪个位置”这件事，是高度一致的。打开微波炉门，手要先向前伸出去、靠近门把手；擦微波炉台面，手要从左往右横向移动。这种“手在空间中如何移动”的轨迹，对于人类和机器人来说本质上是一样的——都需要从A点移动到B点。至于手到了那个位置之后，手腕应该朝哪个方向、指头应该怎么弯曲，那才是人类和机器人真正不一样的地方。

由此，研究团队提出了一种名为“桥接动作”（Bridging Action）的表示方法：只记录手腕（或夹爪）在三维空间中的平移轨迹，彻底丢掉旋转信息。具体来说，他们把手腕在世界坐标系中的位置，投影到机器人头部摄像头所观察到的画面坐标系里，然后记录手腕在接下来若干时间步内，相对于当前位置的位移变化。

用更生活化的方式理解：这就像用GPS导航只记录“从当前位置向北走50米，再向东走30米”，而不去管你走路时两只脚的姿势或身体的朝向。导航关心的只是你的轨迹，不关心你的步态。同样，这个“桥接动作”只关心手腕在空间中走了什么路径，而不关心手腕自身如何旋转。这种动作表示方法为机器人技能学习提供了更高效的迁移途径。

这个设计有三个直接好处。其一，平移信息比旋转信息容易从视频中准确提取，噪声小得多。其二，平移轨迹对人类和机器人来说具有相同的物理含义——都是在描述末端执行器在空间中的运动路径。其三，不同夹持机构在相同任务中确实走相似的平移轨迹，这是动作本质的共性所在。

三、搭建“翻译桥梁”：让人类数据和机器人数据在同一个模型里共存

光有“桥接动作”的概念，还远远不够。人类的数据通常只有平移信息（因为旋转信息不可靠），而机器人要实际运动则需要完整的六自由度指令（三个位置分量加三个旋转分量），还需要控制夹爪开合的离散信号。怎么让一个统一的模型同时处理这些来源不同、格式不同的数据，就成了另一个必须解决的工程问题。

研究团队构建了一个基于大型视觉-语言-动作模型的系统，其架构思路借鉴自业内知名的π₀模型。这个系统的工作方式可以理解成餐厅后厨的协作：有一位“大厨”负责理解食材（视觉信息和语言指令），然后把理解结果传递给“炒锅师傅”（动作生成模块），由后者实际输出具体的操作动作。

为了处理不同数据来源的动作格式差异，研究团队设计了一种“交错动作序列”的表示方式。每个时间步的动作被分成三段依次排列：第一段是三维平移的桥接信息，第二段是完整的六自由度末端执行器动作，第三段是夹爪开合信号。对于人类数据，第二段和第三段可能缺失；对于机器人数据，三段都存在。通过在注意力机制中设置掩码（可以理解为给某些内容贴上“请忽略”的标签），模型在处理不同来源数据时能够自动跳过缺失的部分，不会因为数据不完整而出错。这种多模态学习策略有效提升了数据利用效率。

这种设计的妙处在于，模型在学习人类数据时专注于理解三维平移轨迹所蕴含的操作意图，而在学习机器人数据时则把这个意图与实际的机器人控制指令关联起来。三维平移信息排在序列的最前面，是经过深思熟虑的：当模型生成六自由度机器人动作时，它可以“回头看”已经生成的平移信息，利用从人类数据中学到的运动知识来指导机器人动作的生成。

训练机器人数据时，研究团队还采用了一个关键的数据增强策略：随机地在训练目标中加入平移信息，或者直接用平移信息替换六自由度信息作为训练目标。这个操作强迫模型建立桥接动作和可执行机器人动作之间的明确联系，就像反复练习将中文翻译成英文，才能在需要时自如地进行翻译，从而让机器人操作学习更加高效。

四、三阶段训练：从海量人类数据到精准机器人技能

整个训练体系分为三个阶段，像一条从宽泛到精准的学习路径。

第一阶段是在大规模人类动作数据上进行预训练。研究团队汇集了约600小时的人类手部操作数据：其中约70小时来自公开的EgoDex数据集（一个专门收录第一人称视角手部操作视频的数据集），约500小时是外包采集的自由形式家务操作视频，还有约45小时是在实验室内用专业VR设备采集的数据。这一阶段只训练模型预测三维平移的桥接动作，不涉及任何机器人控制指令。目的是让模型积累丰富的操作知识：手在空间中如何运动才算是在“打开微波炉”，手在空间中如何运动才算是在“擦桌子”。这样的大规模机器人预训练为后续技能迁移奠定了坚实基础。

第二阶段是人类数据与机器人数据的联合训练。研究团队加入了约72小时的通用机器人抓取-放置操作数据（覆盖100多种物品）以及每个任务约3小时的任务专属实验室人类操作数据。这一阶段三种损失函数（平移、六自由度、夹爪）全部激活，模型开始学习如何把操作意图转化为实际的机器人控制信号。

第三阶段是少量机器人数据的精调。研究团队为每个任务采集了100条机器人遥操作轨迹，但在精调时每个任务只使用其中10条，专门研究预训练对数据效率的提升效果。

五、实验：15个任务，真实机器人，令人信服的结果

研究团队在真实机器人平台上进行了系统评测。使用的是ByteMini双臂移动操作机器人，配备两条7自由度机械臂、两个平行夹爪，以及安装在头部和两个腕部的RGB-D摄像头。评测任务涵盖15项不同难度的操作任务，按操作对象分为四组。

微波炉相关任务共6项，包括打开和关闭微波炉门、从微波炉中取出碗和放入碗、以及从左到右和从右到左擦拭微波炉顶面。抽屉相关任务共2项：打开和关闭抽屉。马克杯与杯子相关任务共4项：将左侧/右侧马克杯挂到杯架上，以及将左侧/右侧杯子叠放到另一个杯子上。其他任务共3项：将吸管插入杯中、从烤面包机取出吐司放到盘子里、以及拔出充电器。

每个任务在两种不同的场景布置下各测试4次，合计8次试验。评分标准分两种：成功率（任务是否完成）和进度分（即便没有完全成功，做到哪一步了）。进度分的设置让评测更加细致——哪怕机器人没有完全打开微波炉门，只要它成功够到了门把手，也能得到相应的分数。

结果首先验证了桥接动作的必要性。仅用通用抓取-放置机器人数据训练的模型在15项任务上表现极差，整体进度分约为0.21，成功率更低。引入人类数据并使用桥接动作联合训练后，整体进度分跃升至0.45，成功率达到0.22。在此基础上加入大规模人类预训练（第一阶段），进度分进一步提升至0.60，成功率达到0.38。再加入每任务10条机器人精调数据后，整体进度分达到0.72，成功率达到0.60。这表明机器人操作技能迁移取得了显著成效。

与此同时，研究团队也直接对比了使用完整六自由度人类腕部动作（包含旋转）与只使用三维平移的桥接动作。在联合训练中，六自由度人类动作对应的整体进度分仅有34.67%，成功率12.50%；而三维平移的桥接动作对应的整体进度分达到44.58%，成功率22.50%。定性观察同样清晰：使用六自由度人类动作时，机器人经常产生扭曲偏离的奇怪姿势；使用桥接动作时，机器人的行为自然流畅，末端执行器能准确指向操作目标。

六、深入探究：预训练、数据效率与上界分析

研究团队还做了一组相当扎实的补充实验，解答了几个关键追问。

关于人类预训练如何提升少量机器人数据的利用效率：如果不经过人类预训练，直接用10条机器人数据精调，整体进度分为53.79%，成功率35.83%；但如果经过人类预训练再精调，整体进度分就提升至71.21%，成功率达到55.00%。也就是说，即便机器人自己从来没有“看过”可以实际执行的动作指令（预训练阶段只有平移信息），光是学习了大量人类操作的平移轨迹，就已经为后续快速掌握完整机器人技能打下了坚实基础。这体现了机器人预训练阶段的关键价值。

关于训练损失的分析：研究团队比较了有无人类预训练时，联合训练阶段三种损失函数（平移、六自由度、夹爪）的收敛曲线。有趣的是，尽管人类预训练只优化了平移损失，但从人类预训练初始化的模型在联合训练时，六自由度和夹爪损失都比从零开始训练收敛得更快、更低。这说明平移动作和六自由度动作在优化目标上具有天然的相似性——学好了平移，再学完整动作，效果事半功倍。

关于桥接动作自身的性能上界：研究团队做了一个思想实验，把任务专属的机器人遥操作数据（每任务100条）也转换成只包含平移信息的格式，用与人类数据完全相同的训练方式处理。这相当于消除了视觉差异（机器人有腕部摄像头，数据更完整）和动作噪声（机器人数据比手势估计精准得多）。结果显示，这种“理想情况”下整体进度分可达73.54%，成功率55.83%，显著高于使用真实人类数据的结果。这说明桥接动作本身作为知识迁移的媒介是有效的，当前性能的瓶颈主要来自视觉差异和人类动作数据的固有噪声，随着数据采集技术和视觉对齐方法的改进，还有相当大的提升空间。

七、局限性与失败案例：诚实面对翻译的代价

研究团队没有回避这套方法的短板。最典型的失败案例出现在“将吸管插入杯中”和“打开抽屉”这两个任务上。前者需要精准地抓住一根细小的吸管，后者需要在握住把手后进行特定方向的腕部扭转才能建立有效的拉力。这两个任务的失败，其实都指向同一个根源：旋转信息的缺失。

就像前面餐厅学徒的比喻——记录路径可以学会走到哪里，但如果接下来需要做一个精确的旋转动作（比如拧开瓶盖），光靠路径信息就不够了。研究团队在结论中也明确指出，在未来工作中引入少量可靠的旋转信息是一个有价值的方向，目标是在保持大规模人类数据可用性的同时，补充那些确实需要旋转信息的操作技能。这对于机器人模仿学习的发展具有重要参考意义。

此外，机器人在联合训练后对拾取薄片状物体的能力有所下降，研究团队将此归因于视觉差异（人类和机器人看到的画面角度不同）以及人类动作数据中不可避免的噪声积累。

说到底，这项研究做的事情可以用一句话概括：找到了人类操作知识和机器人控制指令之间真正共通的那一部分——手在空间中如何移动——并以此为桥梁，让海量廉价的人类操作视频真正能够转化为机器人的实用技能。这套方法不依赖昂贵的机器人演示数据，也不要求解决手部旋转估计不准确的难题，而是干脆把那部分不可靠的信息丢掉，专注于可靠的、有意义的信息。

对于普通人来说，这项研究意味着未来的家用机器人可能会通过观看大量普通家务视频来习得技能，而不需要为每一个新任务单独进行昂贵的机器人程序开发。当然，从实验室演示到真正的家用场景还有相当长的路要走，但这个方向上的每一步进展，都让那个目标变得更加清晰可见。

Q&A

Q1：桥接动作（Bridging Action）到底是什么意思，和普通机器人动作有什么区别？

A：研究团队提出了一种简化的动作表示方式，叫“桥接动作”。它只记录手腕在三维空间中的位置移动轨迹，去掉了手腕旋转方向的信息。普通机器人动作包含六个维度（三个位置加三个旋转），而桥接动作只保留三个位置维度。这么设计的原因是，人类和机器人在“手往哪里移动”这件事上是一致的，而在“手朝哪个方向转”这件事上，由于夹持机构不同，存在根本差异。去掉旋转信息，可以避免把错误的旋转习惯从人类数据迁移给机器人，从而提升机器人技能学习的效率。

Q2：为什么从视频里直接学习人类动作之前没人这样做过？

A：实际上已经有很多研究在尝试从人类视频学习机器人技能，但主流做法是把人类手腕的完整姿态（包括旋转）都提取出来直接让机器人模仿。这项研究的新颖之处在于指出了旋转信息的两个根本问题：一是视频中提取旋转信息本身就不准确，噪声大；二是人类旋转手腕的原因（配合手指抓物）和机器人夹爪的工作方式完全不同，直接模仿旋转反而有害。去掉旋转、专注于平移，这个看似“退步”的决定反而带来了更好的机器人模仿学习效果。

Q3：这套方法训练出来的机器人能完成哪些任务，成功率大概是多少？

A：研究团队在15个双臂操作任务上进行了评测，包括开关微波炉门、从微波炉存取碗、擦拭台面、开关抽屉、挂杯子、叠杯子、插吸管、取吐司和拔充电器。在三阶段完整训练（大规模人类预训练加联合训练再加每任务10条机器人精调数据）后，整体平均成功率约为60%，任务进度分约为72%。当然，不同任务差异较大：微波炉开门等任务成功率可达100%，而插吸管等需要精确旋转的任务成功率较低，约为20%。这充分展示了机器人操作学习在不同任务维度上的表现差异。

来源：https://www.163.com/dy/article/L0PL4NHM0511DTVV.html

字节跳动