基于逆强化学习的自然语言机器人教学方法

时间：2026-06-09 15:58

基于逆强化学习，通过观察人类示范学习自然语言指令，在模拟环境中将任务完成率提升14%至17%。额外自监督学习使部署到新环境的智能体成功率再提高38%，显著增强跨场景迁移能力。

实现机器人对自然语言指令的精准响应

基于逆强化学习的自然语言机器人教学

一项基于逆强化学习（通过示例进行学习）的技术，在仿真环境中成功将任务完成率提升了14%至17%。

如果通用型家用机器人得以普及，我们自然期望通过自然语言来指挥它们——例如，对机器人说“把脏盘子拿到厨房去”。然而，自然语言指令给机器人控制系统带来了新的挑战：相同的动作序列可能对应多种不同的自然语言表述（比如，“你能把餐厅的盘子收走吗？”）。

在近期于美国人工智能促进协会（AAAI）年会上发表的一篇论文中，研究团队将自然语言理解领域的部分研究成果应用于自然语言机器人控制问题。具体而言，研究重点聚焦于逆强化学习（IRL）场景：AI智能体通过观察人类示范来学习执行特定任务。团队对标准IRL框架进行了扩展，允许使用自然语言来指定智能体的目标，而非将目标明确地定义为唯一的状态。

在基于高质量室内环境3D模拟基准数据集的实验中，研究人员将所提出的方法与四种主流IRL方法进行了比较。当智能体在训练阶段见过的环境中进行测试时，该方法相较于表现最佳的基线模型，成功完成自然语言指定目标的概率提升了14%。而在全新的、未曾见过的测试环境中，成功率则提升了17%。论文还提出了一种新方法，使得部署到陌生环境中的已训练AI智能体能够针对该环境自主生成训练样本。这种额外的自监督学习机制，进一步将智能体的成功率提升了38%。

逆强化学习

强化学习是一种智能体通过试错进行学习的范式。具体来说，系统会设定一个奖励函数（用于衡量实现某个目标的成功程度），智能体则学习一套能够最大化其累积奖励的行为策略。

相比之下，在逆强化学习中，智能体接收一组来自人类专家或其他智能体的示范，并需学习专家行为背后隐含的最大化奖励函数。

示范通常以轨迹的形式呈现，由交替出现的状态（环境和智能体的位置信息）与动作序列组成。在IRL中，与标准强化学习一样，智能体的最终目标是学习一个策略，该策略决定了在何种状态下应采取何种动作。但关键在于，IRL中的智能体必须同时学习奖励函数和策略。

一种常见的IRL方法是采用生成对抗网络（GAN）。智能体的训练数据是一组由专家建模的真实轨迹，这些轨迹能够完成待学习的目标。

训练设置中还包含一个生成虚假轨迹的对抗生成器，IRL判别器必须学会区分真实轨迹与虚假轨迹。也就是说，它需要学习一个奖励函数，为真实轨迹赋予高价值，而为虚假轨迹赋予低价值。与此同时，对抗生成器则试图学习一个能产生高奖励轨迹的策略。

研究团队对这一框架进行了扩展，为每条轨迹增加了一个额外的输入：目标的自然语言描述。一条单一的轨迹可能对应多个自然语言目标，这些目标与序列中的多个状态和动作相关联，例如：“沿着走廊走”、“左转”、“找到你右边的第一个门口”等等。

在此设置中，对抗生成器产生的负例是带有错误自然语言目标的轨迹：例如，轨迹对应一个右转动作，但自然语言目标却是“左转”。

团队交替使用训练示例来教导智能体奖励函数以及更新其策略。奖励函数同时在轨迹和自然语言目标（NL目标）上进行训练，其训练数据包括来自对抗生成器的负例。对于策略更新，智能体仅接收NL目标（且仅来自正例），并需预测出相关的轨迹。

在实验中，这种基础模型相比现有IRL模型改进甚微，需要增加几个额外特性才能提升其性能表现。

数据增强

首先，研究人员利用专家提供的轨迹，训练了一个变分目标生成器，用于根据轨迹预测NL目标。该模型包含一个变分自编码器，这是一种能够生成每个NL目标高度压缩向量表示的神经网络。这种压缩表示捕获了NL目标的语义信息，但丢失了目标具体措辞的细节。重新扩展这种表示，可以生成一个措辞不同但保留原语义内容的全新NL目标。

将这些带有重新表述NL目标的轨迹作为新的正训练示例，有效扩充了通常较为稀缺的专家训练数据，并通过增加词汇多样性增强了模型的鲁棒性。

当来自对抗生成器的负例（其NL目标不准确）通过标签预测模型时，会得到一个带有正确NL目标的重构轨迹。这些重新标记的轨迹也被添加到正例集合中。

团队利用新增的正例同时训练奖励函数并更新智能体的策略。这不仅提高了奖励函数的准确性，还增强了智能体泛化到新环境的能力，因为它能从比原先更丰富的环境交互中进行学习。

最后，研究人员探索了一种额外的自举方法，用于在陌生环境中执行任务的智能体。首先，智能体从现有训练数据中学习一个新的、与目标无关的策略。该策略编码了通用原则，例如不试图穿过关闭的门。随后，使用该通用策略在新环境中生成样本轨迹；这些轨迹通过变分目标生成器赋予NL目标。这些新标记的轨迹被视为新环境中的专家示例，并用于更新奖励函数。

这一额外的训练层使得智能体在部署到新环境时，成功率提升了36%。研究团队认为，这种适应能力对于未来的家用机器人至关重要——它们需要能够适应新环境（例如家庭搬家或外出度假时），而无需从头开始重新训练。

来源：https://cloud.tencent.com.cn/developer/article/2684780

强化学习

上一篇食物英文PPT制作技巧用AI轻松打造美食介绍 下一篇用Skills自动生成测试用例的落地方案

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言在 Windows 本地开发环境中，直接安装 RabbitMQ 确实颇为周折：需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是，版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。相比之下，借助 Do

AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年，我们与福建制造企业合作较为频繁，发现一个非常突出的现象：超过80%的企业官网，产品参数仍然存放在PDF或图片中。AI爬虫？根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富，但在AI搜索这一全新战场上，它们几乎处于隐身状态。一、一个正在发生的行业变化 A

AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务，这一服务专为企业与开发者量身打造，定位为AI大模型订阅平台。通过引入Credits作为统一计量单位，将文本生成、图像生成等多模态AI能力纳入单一计费体系，同时无缝兼容主流AI编程工具及智能体（Agent）生态系统。其核心亮点包括：全

AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标，而位置数据的来源本质上是借助设备属性进行上传。换言之，若要让设备上报位置，您需先将其视为一个普通属性进行处理。 1）添加二维位置数据操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据，点击添加，将

AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年，阿里云服务器生态已高度成熟，形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网，还是运营电商平台、进行应用开发，基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维，系统梳理2026年最实用的操作要点，帮助你少走弯路，让网