大语言模型结合Masked IRL助力机器人理解模糊指令_AI热点日报

大语言模型结合Masked IRL助力机器人理解模糊指令

类型：热点整理2026-06-27

想象一下，在不久的将来，您可能需要在仓库或办公室环境中，协助一位“新员工”熟悉基本工作流程。而这位新员工并非人类，而是一台机器人。为了高效地完成教学任务，您或许会采用“示范搭配讲解”的方式——亲自演示操作步骤，同时用语言描述您正在执行的动作。以一个更具体的场景为例：假设您希望机器人在您参加Zoom

想象一下，在不久的将来，您可能需要在仓库或办公室环境中，协助一位“新员工”熟悉基本工作流程。而这位新员工并非人类，而是一台机器人。为了高效地完成教学任务，您或许会采用“示范搭配讲解”的方式——亲自演示操作步骤，同时用语言描述您正在执行的动作。

Masked IRL：大语言模型助力机器人理解模糊指令

以一个更具体的场景为例：假设您希望机器人在您参加Zoom会议期间，将咖啡杯轻放在桌上且不打扰到您。这意味着机器人需要懂得与您和笔记本电脑保持安全距离，以免干扰会议进程。要让机器人习得这种行为，必须用清晰、完整的任务展示数据对其进行训练。此前，计算机科学家尝试过多种方法——要么依赖大量实体演示，要么依靠详尽的文字说明来向机器人传授操作任务。然而问题在于，如果两者不能兼备，机器人很容易误解任务的核心要求。

同时提供演示和说明对人类而言相当耗时费力。正因如此，麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究团队开发了一套自动化机器人教学系统。该方案能自动解析模糊指令，并将所需的演示数据量缩减至原来的五分之一左右。研究团队将其命名为“掩码逆向强化学习”（Masked IRL）。该方法借助大语言模型，根据用户演示数据对含糊提示进行扩展与澄清；另一个大语言模型则负责从环境信息中筛选出算法在制定运动方案时应重点参考的关键要素。如此一来，机器人在家庭、办公室和工厂等复杂场景中就能更安全、更准确地完成各类任务。

“当用户与机器人交互时，并不总愿意把任务的每一个细节都明确描述，而我们的方法恰好适合这种场景，”麻省理工学院博士生、CSAIL研究员、该论文第一作者黄旼勇（Minyoung Hwang）表示，“我们的目标是让机器真正理解用户的意图，同时将人工干预降到最低。”

黄旼勇指出，Masked IRL能够帮助机器人在那些人类可能不会主动描述、但对安全导航至关重要的环境要素中做出正确判断。例如，当机器人前往厨房为您取零食时，它可能不知道需要绕开您的笔记本电脑；工厂中机器人在将物品放入不同箱子时，也需要在货架之间谨慎穿行。

在上述场景中学习新任务时，Masked IRL通过机器人的传感器采集周围环境信息，并记录每一次动觉示教（Kinesthetic Teaching）的运动过程。所谓动觉示教，即人类通过直接移动机器人的肢体来示范特定动作——您可以想象成给机器人做物理治疗：弯曲其关节，演示抓取、移动和放置物体的方式。

随后，麻省理工学院的系统会调用大语言模型，将这一系列动作（即运动轨迹）与最优路径进行比较，并对提示中含糊不清的表述进行细化——例如将“靠近”具体化为“靠近桌面”。结合轨迹对比与明确后的指令，大语言模型逐步理解训练动作对任务的重要意义。

第二个大语言模型则负责评估环境细节，例如障碍物的位置和目标物体的形状。在此过程中，它会对自己认为与当前任务无关的要素进行“掩码”处理（即忽略），并为每项细节打分：相关的标记为“1”，不相关的标记为“0”。例如用户演示期间是否靠在桌子上，会被评定为“0”——视为无关信息。所有被标记为“1”的细节则会被算法纳入最终的行动方案中。

这种掩码机制使得Masked IRL在三维仿真和真实环境测试中均优于同类基准方法，因为它帮助机器人学会了如何判断信息的优先级。借助该系统，无论是虚拟机器人还是实体机器人，都能灵活地在障碍物之间移动物体——例如绕过笔记本电脑、将咖啡杯移至桌面不同位置。在这些任务中，Masked IRL识别用户未明确表达的偏好的准确率，比同类基准方法高出最多15个百分点。

在仿真实验中，CSAIL研究人员还发现Masked IRL的学习效率更高——与基准方法相比，它只需更少的演示次数就能掌握移动杯子的技能。研究同时表明，当大语言模型对指令进行明确化处理时，机器人的表现明显优于直接执行模糊指令的情况。

这种更加精准的方法同样在真实机械臂上得到了验证。机器人能够执行训练阶段从未见过的指令。经过50次动觉示教训练后，机器人能够在避开用户电脑的同时，小心地将杯子递向用户——它学会绕开障碍物，正是得益于对“保持距离”这一笼统指令的具体化理解。此外，机器人还在“靠近”桌面的同时完成了擦桌任务，并在“远离”人和桌子的前提下将一袋薯片递给用户。

目前，Masked IRL能够感知并理解用户未明言的信息，但未来或许还能“看见”这些信息。CSAIL研究人员计划为该系统配备摄像头，使其具备拍摄周围环境的能力，从而能够识别并聚焦于特定目标。例如，当用户指示机器人拾取玩具时，它可能会注意到附近的香蕉，并在处理目标物体之前自动将其忽略。

该论文由黄旼勇与三位CSAIL同事共同完成，包括博士生亚历山德拉·福西-斯梅雷克（Alexandra Forsey-Smerek）、博士后纳撒尼尔·丹勒（Nathaniel Dennler），以及麻省理工学院助理教授、航空航天系暨CSAIL成员安德烈亚·博布（Andreea Bobu）。该研究得到了塔塔集团通过麻省理工学院生成式AI影响力联盟奖项的部分资助，以及美国国防部的支持。相关成果将于2026年6月在IEEE国际机器人与自动化大会上正式发表。

Q&A

Q1：Masked IRL是什么？它能解决什么问题？

A：Masked IRL（掩码逆向强化学习）是麻省理工学院CSAIL团队研发的一套自动化机器人教学系统。其核心价值在于帮助机器人理解人类给出的模糊任务指令，自动补全用户未明确表达的细节信息，同时将所需的演示数据量降低约五倍，使机器人在家庭、办公室和工厂等实际场景中能够更安全、更精准地完成任务。

Q2：Masked IRL中的两个大语言模型分别负责什么？

A：第一个大语言模型负责对模糊指令进行扩展和具体化，例如将“靠近”转化为“靠近桌面”，并结合运动轨迹理解动作的意图。第二个大语言模型则评估环境中各项细节的相关性，将重要信息标记为“1”，无关信息标记为“0”，仅让关键细节进入最终行动方案，从而显著提升机器人的执行精准度。

Q3：Masked IRL和其他同类方法相比有哪些优势？

A：Masked IRL在多个维度上优于同类基准方法：识别用户未明确表述的偏好的准确率最高提升15%；所需演示数据量减少近五倍，学习效率更高；在真实机械臂测试中，机器人能够执行训练阶段从未见过的新指令，展现出强大的泛化能力。

来源：https://ai.zhiding.cn/2026/0626/3191773.shtml

语言模型

延伸阅读

补充最近整理过的热点入口。

大语言模型结合Masked IRL助力机器人理解模糊指令

Q&A

相关热点

延伸阅读