强化学习突破传统UED瓶颈精准定位最近发展区

首页

AI资讯

热心网友

转载

2026-05-22

本文第一作者来自国防科技大学数智建模与仿真国家级重点实验室（State Key Laboratory of Digital Intelligent Modeling and Simulation）2024 级博士生原方，通讯作者为国防科技大学曾俊杰助理研究员、李庆伦博士，并由尹全军研究员、秦龙副教授、沈思淇长聘副教授（厦门大学）、谢毓湘教授、杨俊强副研究员共同合作完成。研究团队长期聚焦建模仿真、强化学习等相关方向研究。

ICML 2026｜传统UED瓶颈被打破，强化学习也能精准定位「最近发展区」

训练强化学习智能体时，我们常常会遇到一个两难的局面：有些关卡太简单，智能体跑几遍就完全掌握了；有些关卡又太难，智能体几乎得不到任何有效反馈。前者只是在重复已有能力，后者则会把宝贵的训练预算消耗在无效的探索上。真正有价值的训练环境，往往位于二者之间——它刚好超出智能体当前的能力边界，但又没有难到完全学不会。换句话说，强化学习训练也存在一个“最近发展区”：高效训练的关键，不只是生成更多关卡，而是找到当前阶段最值得学习的那个。

无监督环境设计（Unsupervised Environment Design, UED）正是围绕这一问题展开的。UED不再把训练环境看作固定的数据集，而是通过自动生成、选择或重放关卡，动态塑造训练分布，让智能体在持续学习中提升泛化能力。但UED面临一个核心难题：系统如何知道，哪些关卡真正推动了智能体的学习？

近日，来自国防科技大学、厦门大学等机构的研究者提出了PACE（Parameter Change Environment Design）。PACE使用关卡诱导的策略参数变化作为训练价值信号，直接衡量该关卡是否带来了实际的学习进展。这项研究已被ICML 2026接收。

论文题目：PACE: Parameter Change for Unsupervised Environment Design
论文链接：https://doi.org/10.48550/arXiv.2605.01358

UED：让训练环境自己形成课程

UED的出发点其实很直观。传统强化学习通常先给定一批训练环境，再让智能体在其中反复学习。但训练环境并非越多越好，也不是越难越好。如果关卡太简单，智能体很快进入“舒适区”，只能巩固已经掌握的行为；如果关卡太难，智能体又会陷入“恐慌区”，长期得不到有效奖励。这两种情况都会削弱学习效率和最终的泛化能力。

在UED之前，领域随机化（Domain Randomization）已经表明，环境多样性有助于提升泛化能力。但这类方法通常只是静态地随机采样环境参数，难以根据智能体当前的学习状态动态调整训练内容。

UED则更进一步，将“训练什么”也纳入了学习过程。系统不再把训练环境视为固定背景，而是动态生成、选择或重放关卡，并根据某种评价信号来决定哪些关卡更值得保留、重放或进一步编辑。理想情况下，这些关卡应该持续贴近智能体当前的能力边界：既不轻易被解决，也不完全超出可学习的范围。

现有的UED方法通常需要一个分数（score）来评价关卡。常见的做法包括基于遗憾（regret）、广义优势估计（GAE）、最大蒙特卡洛回报（MaxMC）等。这些信号在实践中有效，但它们更多是从可解性差距、价值估计误差或回报估计出发，并没有直接评估“这次训练到底带来了多少策略上的改进”。另一类方法更直接，例如边际效益（Marginal Benefit）会比较策略更新前后的表现变化，因此更接近真实的学习进步。但它需要额外的环境交互（rollout）来估计更新前后的回报，计算开销更高，估计的方差也更大。

因此，UED的核心问题就变成了：如何简单而准确地判断一个关卡是否真正推动了智能体的学习？

PACE：用参数变化衡量学习进步

PACE的核心思路非常直接：如果一个关卡真正促成了学习，那么智能体在这个关卡上训练后，其策略参数应该发生有意义的变化。也就是说，PACE不再将关卡的价值建立在遗憾、GAE或蒙特卡洛回报等间接信号上，而是直接观察该关卡所诱导的策略更新。

首先，对于某个关卡，研究关心的是策略更新前后的目标函数提升。假设当前策略参数为θ，在该关卡上完成一次局部策略更新后，参数变为θ‘。如果直接估计目标提升，通常需要分别评估更新前后的策略表现，这意味着额外的环境交互。这会带来更高的计算开销，并在稀疏奖励或长时程任务中引入较大的估计方差。

PACE选择从优化过程本身入手。在当前参数θ附近，对目标函数J(θ)做一阶泰勒展开。进一步假设这一步更新是沿着局部梯度方向进行的，即更新量Δθ与梯度∇J(θ)成正比。经过推导，可以得到目标提升的一个近似表达式，该表达式与策略参数变化量的平方范数成正比。

于是，PACE将关卡的分数定义为该参数变化量的范数。直观地说，如果一个关卡诱导了更大的有效参数更新，它就更有价值，因为它更可能包含了当前策略尚未掌握、但又能够提供学习信号的内容。PACE关注的不是这个关卡看起来有多难，而是它是否真的让策略朝着更优的方向前进了一步。

^{图 1：PACE 工作流程图。}

基于这一分数，PACE的运行过程可以分为两个部分：关卡评分（level scoring）和策略训练（policy training）（见图1）。

在关卡评分阶段，系统先从关卡生成器中生成一个候选关卡，并用当前策略在该关卡上收集数据。随后，PACE执行一次临时的策略更新，得到新的参数。这一步仅用于计算分数，并不直接写回当前策略。接着，PACE根据上述公式计算该关卡的分数。

如果关卡缓冲区尚未填满，PACE会将该关卡直接加入；如果缓冲区已满，则当当前关卡的分数高于缓冲区中最低分关卡时，就用当前关卡替换那个低分关卡。这样，缓冲区就能持续保留那些更能诱导策略更新的关卡。

在策略训练阶段，PACE从关卡缓冲区中采样关卡，并使用这些关卡正式更新策略参数。采样时，PACE会根据分数构造优先级分布，让高分关卡更容易被重放。

整个过程不断交替进行：新关卡被生成并打分，高价值关卡被写入缓冲区，缓冲区中的关卡又被优先重放以训练策略。由此，PACE利用策略参数变化构造出一种内生的学习进步信号，并用它来驱动训练课程随着智能体能力的提升而动态演化。

实验结果：从迷宫泛化到开放式任务

研究在MiniGrid和Craftax两个基准上验证了PACE的有效性，分别考察了其在结构化迷宫中的零样本泛化能力，以及在长时程、非平稳任务中的持续学习能力。对比方法包括领域随机化（DR）、优先级别重放（PLR）、PLR的变体以及ACCEL。

在MiniGrid实验中，所有方法都在相同的训练迷宫中学习，测试时直接迁移到12个未见过的、由人类设计的关卡，不进行任何额外微调。这一设置主要检验零样本泛化能力。如图2所示，在较简单的FourRooms迷宫中，各方法都能取得较高的成功率；但随着关卡结构变得复杂，差距开始明显扩大。在Labyrinth、Maze3等更具挑战性的关卡上，PACE不仅成功率更高，结果的方差也更小。

研究者进一步使用rliable库评估整体表现。表1显示，PACE的IQM（四分位均值）达到了0.964，明显高于最强基线PLR的0.808；其最优性差距（Optimality Gap）降至0.172，也优于DR、PLR及其变体和ACCEL。这说明PACE带来的提升并非源于少数特定关卡，而是体现为更稳定的整体泛化能力。

^{图 2：MiniGrid 上的零样本迁移性能。}

^{表 1：MiniGrid 上的整体泛化指标。}

为了进一步检验PACE在更复杂任务中的适用性，论文还在Craftax上进行了实验。Craftax是一个面向开放式强化学习的JAX基准。随着探索的推进，智能体会遇到新的区域、机制和目标，任务分布也会持续变化，因此更能检验UED方法是否能在长训练过程中持续提供有效的课程。

实验遵循Craftax-1B设置，训练预算约为10亿次环境交互。评估时，研究者在20个未见过的Craftax关卡上比较最终策略的回合奖励。如表2所示，PACE在相同训练预算下取得了最高的评估回报，平均奖励达到0.61，高于DR的0.52，也优于PLR及其变体和ACCEL。

^{表 2：Craftax 上 20 个未见过 levels 上的平均回报和标准差。}

结语与展望

在强化学习智能体需要持续适应未见环境的背景下，如何准确识别真正推动学习的关卡是UED的关键问题。PACE通过参数变化这一简单、低方差、计算友好的内生信号，将环境评价直接建立在“已实现的学习进步”之上。这一思路有助于减少袋里指标偏差、高方差估计和额外环境交互开销的影响，为构建更稳定、更可扩展的自适应训练课程提供了新的方向。

来源:https://www.jiqizhixin.com/articles/2026-05-21-14

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：Meta凌晨裁员8000人全力投入AI转型下一篇：中小企业如何低成本使用AIAgent实现办公自动化