实现机器人对自然语言指令的精准响应

一项基于逆强化学习(通过示例进行学习)的技术,在仿真环境中成功将任务完成率提升了14%至17%。
如果通用型家用机器人得以普及,我们自然期望通过自然语言来指挥它们——例如,对机器人说“把脏盘子拿到厨房去”。然而,自然语言指令给机器人控制系统带来了新的挑战:相同的动作序列可能对应多种不同的自然语言表述(比如,“你能把餐厅的盘子收走吗?”)。
在近期于美国人工智能促进协会(AAAI)年会上发表的一篇论文中,研究团队将自然语言理解领域的部分研究成果应用于自然语言机器人控制问题。具体而言,研究重点聚焦于逆强化学习(IRL)场景:AI智能体通过观察人类示范来学习执行特定任务。团队对标准IRL框架进行了扩展,允许使用自然语言来指定智能体的目标,而非将目标明确地定义为唯一的状态。
在基于高质量室内环境3D模拟基准数据集的实验中,研究人员将所提出的方法与四种主流IRL方法进行了比较。当智能体在训练阶段见过的环境中进行测试时,该方法相较于表现最佳的基线模型,成功完成自然语言指定目标的概率提升了14%。而在全新的、未曾见过的测试环境中,成功率则提升了17%。论文还提出了一种新方法,使得部署到陌生环境中的已训练AI智能体能够针对该环境自主生成训练样本。这种额外的自监督学习机制,进一步将智能体的成功率提升了38%。
逆强化学习
强化学习是一种智能体通过试错进行学习的范式。具体来说,系统会设定一个奖励函数(用于衡量实现某个目标的成功程度),智能体则学习一套能够最大化其累积奖励的行为策略。
相比之下,在逆强化学习中,智能体接收一组来自人类专家或其他智能体的示范,并需学习专家行为背后隐含的最大化奖励函数。
示范通常以轨迹的形式呈现,由交替出现的状态(环境和智能体的位置信息)与动作序列组成。在IRL中,与标准强化学习一样,智能体的最终目标是学习一个策略,该策略决定了在何种状态下应采取何种动作。但关键在于,IRL中的智能体必须同时学习奖励函数和策略。
一种常见的IRL方法是采用生成对抗网络(GAN)。智能体的训练数据是一组由专家建模的真实轨迹,这些轨迹能够完成待学习的目标。
训练设置中还包含一个生成虚假轨迹的对抗生成器,IRL判别器必须学会区分真实轨迹与虚假轨迹。也就是说,它需要学习一个奖励函数,为真实轨迹赋予高价值,而为虚假轨迹赋予低价值。与此同时,对抗生成器则试图学习一个能产生高奖励轨迹的策略。
研究团队对这一框架进行了扩展,为每条轨迹增加了一个额外的输入:目标的自然语言描述。一条单一的轨迹可能对应多个自然语言目标,这些目标与序列中的多个状态和动作相关联,例如:“沿着走廊走”、“左转”、“找到你右边的第一个门口”等等。
在此设置中,对抗生成器产生的负例是带有错误自然语言目标的轨迹:例如,轨迹对应一个右转动作,但自然语言目标却是“左转”。
团队交替使用训练示例来教导智能体奖励函数以及更新其策略。奖励函数同时在轨迹和自然语言目标(NL目标)上进行训练,其训练数据包括来自对抗生成器的负例。对于策略更新,智能体仅接收NL目标(且仅来自正例),并需预测出相关的轨迹。
在实验中,这种基础模型相比现有IRL模型改进甚微,需要增加几个额外特性才能提升其性能表现。
数据增强
首先,研究人员利用专家提供的轨迹,训练了一个变分目标生成器,用于根据轨迹预测NL目标。该模型包含一个变分自编码器,这是一种能够生成每个NL目标高度压缩向量表示的神经网络。这种压缩表示捕获了NL目标的语义信息,但丢失了目标具体措辞的细节。重新扩展这种表示,可以生成一个措辞不同但保留原语义内容的全新NL目标。
将这些带有重新表述NL目标的轨迹作为新的正训练示例,有效扩充了通常较为稀缺的专家训练数据,并通过增加词汇多样性增强了模型的鲁棒性。
当来自对抗生成器的负例(其NL目标不准确)通过标签预测模型时,会得到一个带有正确NL目标的重构轨迹。这些重新标记的轨迹也被添加到正例集合中。
团队利用新增的正例同时训练奖励函数并更新智能体的策略。这不仅提高了奖励函数的准确性,还增强了智能体泛化到新环境的能力,因为它能从比原先更丰富的环境交互中进行学习。
最后,研究人员探索了一种额外的自举方法,用于在陌生环境中执行任务的智能体。首先,智能体从现有训练数据中学习一个新的、与目标无关的策略。该策略编码了通用原则,例如不试图穿过关闭的门。随后,使用该通用策略在新环境中生成样本轨迹;这些轨迹通过变分目标生成器赋予NL目标。这些新标记的轨迹被视为新环境中的专家示例,并用于更新奖励函数。
这一额外的训练层使得智能体在部署到新环境时,成功率提升了36%。研究团队认为,这种适应能力对于未来的家用机器人至关重要——它们需要能够适应新环境(例如家庭搬家或外出度假时),而无需从头开始重新训练。
