强化学习突破传统UED瓶颈 精准定位最近发展区
本文第一作者来自国防科技大学数智建模与仿真国家级重点实验室(State Key Laboratory of Digital Intelligent Modeling and Simulation)2024 级博士生原方,通讯作者为国防科技大学曾俊杰助理研究员、李庆伦博士,并由尹全军研究员、秦龙副教授、沈思淇长聘副教授(厦门大学)、谢毓湘教授、杨俊强副研究员共同合作完成。研究团队长期聚焦建模仿真、强化学习等相关方向研究。

训练强化学习智能体时,我们常常会遇到一个两难的局面:有些关卡太简单,智能体跑几遍就完全掌握了;有些关卡又太难,智能体几乎得不到任何有效反馈。前者只是在重复已有能力,后者则会把宝贵的训练预算消耗在无效的探索上。真正有价值的训练环境,往往位于二者之间——它刚好超出智能体当前的能力边界,但又没有难到完全学不会。换句话说,强化学习训练也存在一个“最近发展区”:高效训练的关键,不只是生成更多关卡,而是找到当前阶段最值得学习的那个。
无监督环境设计(Unsupervised Environment Design, UED)正是围绕这一问题展开的。UED不再把训练环境看作固定的数据集,而是通过自动生成、选择或重放关卡,动态塑造训练分布,让智能体在持续学习中提升泛化能力。但UED面临一个核心难题:系统如何知道,哪些关卡真正推动了智能体的学习?
近日,来自国防科技大学、厦门大学等机构的研究者提出了PACE(Parameter Change Environment Design)。PACE使用关卡诱导的策略参数变化作为训练价值信号,直接衡量该关卡是否带来了实际的学习进展。这项研究已被ICML 2026接收。
论文题目:PACE: Parameter Change for Unsupervised Environment Design
论文链接:https://doi.org/10.48550/arXiv.2605.01358
UED:让训练环境自己形成课程
UED的出发点其实很直观。传统强化学习通常先给定一批训练环境,再让智能体在其中反复学习。但训练环境并非越多越好,也不是越难越好。如果关卡太简单,智能体很快进入“舒适区”,只能巩固已经掌握的行为;如果关卡太难,智能体又会陷入“恐慌区”,长期得不到有效奖励。这两种情况都会削弱学习效率和最终的泛化能力。
在UED之前,领域随机化(Domain Randomization)已经表明,环境多样性有助于提升泛化能力。但这类方法通常只是静态地随机采样环境参数,难以根据智能体当前的学习状态动态调整训练内容。
UED则更进一步,将“训练什么”也纳入了学习过程。系统不再把训练环境视为固定背景,而是动态生成、选择或重放关卡,并根据某种评价信号来决定哪些关卡更值得保留、重放或进一步编辑。理想情况下,这些关卡应该持续贴近智能体当前的能力边界:既不轻易被解决,也不完全超出可学习的范围。
现有的UED方法通常需要一个分数(score)来评价关卡。常见的做法包括基于遗憾(regret)、广义优势估计(GAE)、最大蒙特卡洛回报(MaxMC)等。这些信号在实践中有效,但它们更多是从可解性差距、价值估计误差或回报估计出发,并没有直接评估“这次训练到底带来了多少策略上的改进”。另一类方法更直接,例如边际效益(Marginal Benefit)会比较策略更新前后的表现变化,因此更接近真实的学习进步。但它需要额外的环境交互(rollout)来估计更新前后的回报,计算开销更高,估计的方差也更大。
因此,UED的核心问题就变成了:如何简单而准确地判断一个关卡是否真正推动了智能体的学习?
PACE:用参数变化衡量学习进步
PACE的核心思路非常直接:如果一个关卡真正促成了学习,那么智能体在这个关卡上训练后,其策略参数应该发生有意义的变化。也就是说,PACE不再将关卡的价值建立在遗憾、GAE或蒙特卡洛回报等间接信号上,而是直接观察该关卡所诱导的策略更新。
首先,对于某个关卡,研究关心的是策略更新前后的目标函数提升。假设当前策略参数为θ,在该关卡上完成一次局部策略更新后,参数变为θ‘。如果直接估计目标提升,通常需要分别评估更新前后的策略表现,这意味着额外的环境交互。这会带来更高的计算开销,并在稀疏奖励或长时程任务中引入较大的估计方差。
PACE选择从优化过程本身入手。在当前参数θ附近,对目标函数J(θ)做一阶泰勒展开。进一步假设这一步更新是沿着局部梯度方向进行的,即更新量Δθ与梯度∇J(θ)成正比。经过推导,可以得到目标提升的一个近似表达式,该表达式与策略参数变化量的平方范数成正比。
于是,PACE将关卡的分数定义为该参数变化量的范数。直观地说,如果一个关卡诱导了更大的有效参数更新,它就更有价值,因为它更可能包含了当前策略尚未掌握、但又能够提供学习信号的内容。PACE关注的不是这个关卡看起来有多难,而是它是否真的让策略朝着更优的方向前进了一步。
图 1:PACE 工作流程图。
基于这一分数,PACE的运行过程可以分为两个部分:关卡评分(level scoring)和策略训练(policy training)(见图1)。
在关卡评分阶段,系统先从关卡生成器中生成一个候选关卡,并用当前策略在该关卡上收集数据。随后,PACE执行一次临时的策略更新,得到新的参数。这一步仅用于计算分数,并不直接写回当前策略。接着,PACE根据上述公式计算该关卡的分数。
如果关卡缓冲区尚未填满,PACE会将该关卡直接加入;如果缓冲区已满,则当当前关卡的分数高于缓冲区中最低分关卡时,就用当前关卡替换那个低分关卡。这样,缓冲区就能持续保留那些更能诱导策略更新的关卡。
在策略训练阶段,PACE从关卡缓冲区中采样关卡,并使用这些关卡正式更新策略参数。采样时,PACE会根据分数构造优先级分布,让高分关卡更容易被重放。
整个过程不断交替进行:新关卡被生成并打分,高价值关卡被写入缓冲区,缓冲区中的关卡又被优先重放以训练策略。由此,PACE利用策略参数变化构造出一种内生的学习进步信号,并用它来驱动训练课程随着智能体能力的提升而动态演化。
实验结果:从迷宫泛化到开放式任务
研究在MiniGrid和Craftax两个基准上验证了PACE的有效性,分别考察了其在结构化迷宫中的零样本泛化能力,以及在长时程、非平稳任务中的持续学习能力。对比方法包括领域随机化(DR)、优先级别重放(PLR)、PLR的变体以及ACCEL。
在MiniGrid实验中,所有方法都在相同的训练迷宫中学习,测试时直接迁移到12个未见过的、由人类设计的关卡,不进行任何额外微调。这一设置主要检验零样本泛化能力。如图2所示,在较简单的FourRooms迷宫中,各方法都能取得较高的成功率;但随着关卡结构变得复杂,差距开始明显扩大。在Labyrinth、Maze3等更具挑战性的关卡上,PACE不仅成功率更高,结果的方差也更小。
研究者进一步使用rliable库评估整体表现。表1显示,PACE的IQM(四分位均值)达到了0.964,明显高于最强基线PLR的0.808;其最优性差距(Optimality Gap)降至0.172,也优于DR、PLR及其变体和ACCEL。这说明PACE带来的提升并非源于少数特定关卡,而是体现为更稳定的整体泛化能力。
图 2:MiniGrid 上的零样本迁移性能。
表 1:MiniGrid 上的整体泛化指标。
为了进一步检验PACE在更复杂任务中的适用性,论文还在Craftax上进行了实验。Craftax是一个面向开放式强化学习的JAX基准。随着探索的推进,智能体会遇到新的区域、机制和目标,任务分布也会持续变化,因此更能检验UED方法是否能在长训练过程中持续提供有效的课程。
实验遵循Craftax-1B设置,训练预算约为10亿次环境交互。评估时,研究者在20个未见过的Craftax关卡上比较最终策略的回合奖励。如表2所示,PACE在相同训练预算下取得了最高的评估回报,平均奖励达到0.61,高于DR的0.52,也优于PLR及其变体和ACCEL。
表 2:Craftax 上 20 个未见过 levels 上的平均回报和标准差。
结语与展望
在强化学习智能体需要持续适应未见环境的背景下,如何准确识别真正推动学习的关卡是UED的关键问题。PACE通过参数变化这一简单、低方差、计算友好的内生信号,将环境评价直接建立在“已实现的学习进步”之上。这一思路有助于减少袋里指标偏差、高方差估计和额外环境交互开销的影响,为构建更稳定、更可扩展的自适应训练课程提供了新的方向。
相关攻略
强化学习训练需找到智能体能力边界附近的“最近发展区”。研究提出PACE方法,直接利用策略参数变化衡量关卡诱导的学习进展,动态生成高价值训练课程。实验表明,PACE在迷宫和开放式任务中显著提升了智能体的零样本泛化能力和持续学习性能。
阿里通义实验室推出强化学习框架EAPO,专注于提升长文本推理的准确性。该框架通过结构化证据推理和多粒度奖励机制,将监督重点转向证据提取过程。基于300亿参数模型训练的EAPO在多项测试中表现优异,综合得分超越更大规模闭源模型,有效降低了证据与推理错误率。
强化学习是一种让智能体通过与环境交互、从试错中学习最优决策策略的人工智能技术。其核心机制类似于训练宠物:做出正确行为给予奖励,错误行为则没有。智能体在模拟或真实环境中不断尝试,根据反馈调整策略,最终找到获得最高累积回报的行动序列。然而,传统强化学习的样本效率低下是公认的难题——智能体往往需要数百万甚
如果你正在本地尝试对大语言模型进行偏好对齐,但被传统RLHF(基于人类反馈的强化学习)的复杂流程、高昂资源消耗和训练不稳定性所困扰,那么DPO(直接偏好优化)或许就是你一直在寻找的轻量化解决方案。它提供了一条更高效、更可控的技术路径。下面,我们将详细拆解在本地环境中实施DPO训练的具体操作步骤与核心
作为人工智能领域的核心技术之一,强化学习通过模拟生物“试错学习”的机制,使机器能够自主探索并掌握最优决策策略。这种独特的学习范式赋予了AI系统强大的环境适应性与复杂决策能力。本文将深入解析强化学习的基本原理,并探讨其如何驱动多个行业的智能化变革。 一、强化学习的工作原理 理解强化学习,可以类比训练智
热门专题
热门推荐
想在游戏里高效“刷”出心仪的装备或材料吗?摸清Boss的刷新位置是关键一步。这份汇总整理了游戏中各个Boss的常见刷新点,希望能帮你少走弯路,精准出击。 有几点需要提前说明:首先,地图信息部分来源于其他玩家的探索与分享;其次,为了保持信息清晰,正文中不会包含任何讨论或引导性发言,所有具体位置和细节都
在创意设计与数字营销工作中,高效获取高质量、可商用的设计素材是提升工作效率的关键。本文将为您全面解析国内知名的设计素材服务平台——千图网,深入探讨其核心功能、资源特色以及实际应用价值,帮助您判断它是否适合您的创作需求。 千图网是什么平台? 千图网是国内领先的在线设计素材与模板服务平台,致力于为设计师
火币HTX官方App需通过其官网安全下载。安卓用户访问官网可直接下载APK安装包;苹果用户则需通过官网跳转至AppStore下载,若遇地区限制需遵循官网指引。务必通过搜索引擎核实官方认证的官网地址,避免使用非官方链接,以确保资产安全。
ManusAI是专为教育设计的智能协作者,教师只需用自然语言描述教学目标,它便能自动完成资源检索、内容生成、交互开发等全套工作,无需复杂操作。其内置教育流程可生成覆盖课前到课后的完整教学资源包,支持互动网页、微课脚本、个性化题库等。实际案例显示,该工具能有效提升学生参与度并减。
极狐贝塔S3纯电家轿上市,换电版采用电池租用方案起售价5 98万元。该车定位B级,空间利用率高,提供灵活租电方案与快速换电服务。品牌同时明确了“贝塔”系列,与“问道”“阿尔法”系列构成三大产品支柱。车辆配备智能座舱与丰富配置,续航版本多样,高配智驾版将于第四季度交付。





