ICML26 强化学习有价值样本合成方法EMCES
针对扩散模型合成样本缺乏可控性的问题,提出EMCES方法,将情景记忆引入可控扩散模型引导高质量样本合成,并设计基于哈希的状态表示。在不牺牲下游算法性能下,存储开销降低约8000倍,时间开销降低25 5倍。
近年来,强化学习在游戏智能体、具身智能、大语言模型等领域取得了迅速进展,成果层出不穷。然而,在真实世界应用中,强化学习始终面临一个关键难题:高质量样本的获取不仅成本高昂,还伴随着多种风险。因此,样本增强成为缓解这一困境的重要思路之一。
受扩散模型强大分布建模能力的启发,研究人员近期提出了基于扩散模型的样本增强方法,代表性工作为SynthER。其核心思路是通过合成高保真样本,扩大训练数据规模、提升数据质量。
但问题在于,合成样本虽然能够还原真实环境的动态特性,却未必是对策略学习“最有用”的样本。为揭示这一短板,论文采用经典离线强化学习算法TD3+BC在合成样本集上训练智能体进行评测。实验选用Hopper环境,样本集来自D4RL基准中的medium-expert,包含约200万条从环境中直接采集的真实数据,而合成样本集由SynthER生成,规模从10万到500万条不等。
实验结果如下:
从图中可以清晰看出:只有当合成样本集的规模远超原始样本集时,才有机会充分覆盖高质量样本区域,从而提升策略性能。换言之,当前基于扩散模型的样本增强方法缺乏有效的可控机制,无法优先合成对策略学习更具价值的高质量样本。
针对这一局限,浙江理工大学马啸讲师与南京大学李武军教授课题组合作提出了一种高效的样本合成方法——EMCES。其巧妙之处在于,将情景记忆机制引入可控扩散模型,利用情景记忆引导高质量样本的合成,从而提升下游强化学习算法的表现。
这是首次将情景记忆引入可控扩散模型并用于指导强化学习样本合成的工作。此外,论文还设计了一种基于哈希的状态表示方法,显著提升了情景记忆机制的存储与检索效率。实验结果表明,在不牺牲下游强化学习算法性能的前提下,存储开销较现有状态表示方法降低了约8000倍,时间开销降低了25.5倍。
该论文已被ICML2026录用。南京大学李武军教授任通讯作者,浙江理工大学马啸讲师为第一作者,南京大学硕士生李天为参与作者。
- 论文标题:Episodic Memory-Guided Controllable Experience Synthesis for Reinforcement Learning
- 论文地址:https://openreview.net/forum?id=mjYcL7esQO
## 1. 方法简介
情景记忆在人类大脑中扮演着关键角色,是我们快速学习与高效利用经验的基础。将这一思想迁移到强化学习中,情景记忆能够存储、整合并检索有价值的历史经验,使智能体直接访问高质量过往信息,从而提升样本效率。
基于这一思路,EMCES利用情景记忆存储历史经验中的高价值信息,为可控扩散模型设计控制条件,引导其合成更高质量的样本。具体而言,EMCES包含三个核心组件:**基于情景记忆的可控扩散模型**、**基于情景记忆时序差分误差的优先条件采样策略**,以及**基于哈希表示的情景记忆机制**。
EMCES的整体架构图如下:
### 1.1 基于情景记忆的可控扩散模型
可控的样本合成过程是提升合成样本质量的关键。为此,论文引入了可控扩散模型,将期望输出设定为强化学习中的数据单元——状态转移。为刻画给定样本集的分布,论文训练了一个可控扩散模型,通过求解以下优化问题来学习数据分布:
这里表示一个由参数参数化的去噪器,是噪声水平,是条件。
样本的可控合成在很大程度上取决于条件的设计质量。设计合理的条件能使模型合成符合目标语义和环境动力学规律的样本。因此,条件必须精心设计,充分编码目标样本中的关键信息。同时,需要兼顾训练效率与生成质量,条件表示应在信息量充足的基础上尽可能紧凑。状态决定了可能的动作、奖励以及下一步的状态转移,因此状态必须纳入条件。
然而,直接使用状态可能降低可控扩散模型的训练效率——原始状态往往包含大量冗余信息,在高维视觉状态场景中尤为突出。为此,论文采用了一个简单紧凑的状态表示函数对状态进行编码,将编码结果作为条件输入的一部分。
在保证条件表示紧凑的同时,条件还应尽可能捕获更丰富的上下文信息,例如动作、奖励、下一状态以及潜在的未来回报。为在信息量与紧凑性之间取得平衡,EMCES考虑使用状态-动作价值函数来构造条件。该函数能够融合动作、奖励、下一状态和潜在未来回报等多重关键信息,为可控扩散模型提供更具指导性的条件信号。传统状态-动作价值函数依赖神经网络估计,不仅需要额外训练,还容易受到训练不稳定的影响。
论文的思路是引入情景记忆机制来估计状态-动作价值函数。情景记忆的非参数特性使其无需额外模型训练即可稳定进行价值估计。为保持条件构造的一致性和计算效率,情景记忆机制使用与可控扩散模型条件中相同的状态表示函数。对于样本,其条件定义如下:
其中是状态编码,表示由情景记忆估计得到的历史最优折扣回报。该值从情景记忆中检索得到。这个项能够隐式刻画样本中的关键元素及其潜在最优未来回报,从而为可控扩散模型生成高质量样本提供有效的条件引导。因此,该模型被称为基于情景记忆的可控扩散模型。
### 1.2 基于情景记忆时序差分误差的优先条件采样策略
基于情景记忆的可控扩散模型可直接用于合成样本,但其核心优势在于以可控方式合成高质量样本。直观而言,样本合成过程不仅要符合底层样本分布,还应优先合成对策略学习更有价值的样本。
已有研究表明,优先选择信息量更高的样本进行训练——例如具有较大时序差分误差的样本——能够提升样本效率和训练稳定性。受此启发,论文提出了基于情景记忆时序差分误差(EMTD-误差)的指标,用于衡量样本对策略改进的重要性,具体定义如下:
其中和分别通过索引从情景记忆机制中查找得到。EMTD-误差的大小反映了基于下一状态得到的价值估计与当前状态历史最优折扣回报之间的偏差。因此,它可以衡量样本对策略改进的潜在价值。较大的EMTD-误差意味着与已有历史经验相比,该样本可能带来更高回报,对策略改进的价值也更大。
为避免对高EMTD-误差样本的过度采样,论文进一步提出了基于EMTD-误差的优先条件采样策略。该策略对所有样本的EMTD-误差应用Softmax算子,为每个条件计算采样概率:
其中控制优先采样的程度。越大,采样越倾向于生成具有较大EMTD-误差的样本;当时,退化为均匀采样。这样一来,既能引导基于情景记忆的可控扩散模型合成高质量样本,又能保持样本多样性,支持更稳健的策略学习。
### 1.3 基于哈希状态表示的情景记忆
对于情景记忆机制,良好的状态表示不仅能够有效聚合来自不同轨迹的状态,提升构造质量,还能降低存储和时间开销。然而,现有用于情景记忆的状态表示方法大多是数据无关的,限制了不同轨迹状态的聚合质量。为此,论文设计了一种新的状态表示方法——基于哈希的状态表示。该方法采用Learning-to-Hash的思路,将原始状态编码为紧凑且信息丰富的二进制编码。具体而言,给定样本集,该方法学习个实值投影函数,每个函数输出一个实值,表示编码长度。随后,每个投影维度通过符号函数量化为0或1。关于投影函数的学习,论文采用了李武军教授提出的哈希学习方法IsoHash来完成。由于哈希编码是从数据分布中学习得到的,它更能与状态空间的底层结构对齐,减少无关状态之间的混淆。此外,基于哈希的状态表示通过将相似状态赋予相同的哈希编码,帮助情景记忆机制隐式合并多条轨迹,从而构建更高质量的情景记忆,同时为基于情景记忆的可控扩散模型提供紧凑且充分的条件。
对于情景记忆机制,论文沿用了团队前期工作中的实现方式——KD-树。其存储复杂度、检索时间复杂度和构建时间复杂度分别为:
其中表示对大小为的样本集编码后的状态编码数量,表示状态编码每一维所需的比特数,表示编码状态的维度。在给定相同值的情况下,不同状态表示方法的存储、检索和构建复杂度由和的取值影响,具体如下表所示。可以看出,基于哈希的状态表示能够有效降低情景记忆对应的存储、检索和构建复杂度。
## 2. 实验结果
为验证EMCES的有效性,论文在离线强化学习和在线强化学习两种设置下分别进行了实验。在离线强化学习设置下,论文从D4RL基准中选取了HalfCheetah、Walker2d、Hopper和Maze2D四个环境,使用TD3+BC、IQL和EDAC三种代表性离线强化学习算法对合成样本集的质量进行评估。下表中的结果表明,EMCES在大多数任务中提升了下游算法的表现,有时合成样本的训练效果甚至达到或超过了原始样本集的效果。
在在线强化学习设置下,论文选择了quadruped-walk、reacher-hard、cheetah-run、Walker2d、HalfCheetah和Hopper六个环境,使用SAC作为在线强化学习算法,并与SynthER及专注在线强化学习的样本增强方法PGR进行了对比。更多实验细节请参见原论文。下图结果表明,SAC (EMCES)能够持续提升样本效率,优于SAC (SynthER)和SAC (PGR),说明EMCES合成的数据质量更高。
论文还对情景记忆中的状态表示方法进行了讨论。下表总结了EMCES在不同状态表示下的归一化分数,括号中的数字表示相对于SynthER的提升。为保证公平,所有实验均在一台配备36核72线程Intel Xeon Gold 6240 CPU @ 2.60GHz、377 GB内存和8块NVIDIA GeForce RTX2080Ti GPU的工作站上进行。结果显示,EMCES在不同状态表示下均优于SynthER,这验证了其整体框架的有效性。同时,下表汇报了不同状态表示下建立情景记忆所需的存储和时间成本(包括检索和构建)。可以看出,基于哈希和基于网格的状态表示均能显著降低存储和时间成本。与基于随机投影的状态表示相比,在不损失归一化分数的情况下,基于哈希的状态表示将存储成本降低了约8000倍,时间成本降低了约25.5倍。此外,论文还对可控扩散模型的条件设计、采样策略等进行了消融实验,更多讨论可查阅原文。
## 3. 全文小结
EMCES的核心优势可以概括为三点:
- **合成过程强可控**:将情景记忆机制引入可控扩散模型,通过情景记忆构造条件,引导扩散模型合成与目标任务更相关的样本,提升了样本增强的可控性。
- **合成样本质量高**:利用情景记忆时序差分误差评估样本对策略学习的潜在价值,在采样过程中优先关注更具价值的样本区域,从而合成高质量样本。
- **情景记忆高效性**:采用基于哈希的状态表示后,情景记忆机制在不损失下游强化学习算法表现的情况下,存储开销较已有状态表示方法降低约8000倍,时间开销降低25.5倍。
参考文献:
[1] Lu, C., Ball, P. J., Teh, Y. W., and Parker-Holder, J. Synthetic experience replay. In NeurIPS, 2023b.
[2] Fujimoto, S. and Gu, S. S. A minimalist approach to offline reinforcement learning. In NeurIPS, 2021.
[3] Fu, J., Kumar, A., Nachum, O., Tucker, G., and Levine, S. D4RL: datasets for deep data-driven reinforcement learning. CoRR, abs/2004.07219, 2020.
[4] Kong, W. and Li, W.-J. Isotropic hashing. In NeurIPS, 2012.
[5] Ma, X. and Li, W.-J. State-based episodic memory for multi-agent reinforcement learning. Machine Learning, 112(12):5163–5190, 2023.
来源:https://www.jiqizhixin.com/api/article_library/articles/2026-07-02-2
相关热点
继续查看同栏目近期热点。
延伸阅读
补充最近整理过的热点入口。
