腾讯北大联合研发强化学习新方法提升机器人全局决策能力

强化学习是一种让智能体通过与环境交互、从试错中学习最优决策策略的人工智能技术。其核心机制类似于训练宠物:做出正确行为给予奖励,错误行为则没有。智能体在模拟或真实环境中不断尝试,根据反馈调整策略,最终找到获得最高累积回报的行动序列。然而,传统强化学习的样本效率低下是公认的难题——智能体往往需要数百万甚至数亿次交互才能掌握一项基础技能。若要在物理世界(如机器人控制)中收集如此海量的数据,其时间与金钱成本通常是无法承受的。
因此,如何提升强化学习的样本效率,实现“快速学习”,成为该领域的关键研究方向。一种极具潜力的解决方案是“基于模型的表示学习”。该方法旨在让智能体不仅学习“在什么状态下采取什么动作能获得奖励”,同时学习并理解环境的内在动态模型。换言之,智能体需要构建一个关于“世界如何响应我的行动而演变”的内部心智模型。将这种环境动力学知识编码到智能体的感知表示中,理论上可以显著减少学习所需的数据量。
然而,这条道路充满挑战。腾讯混元、麦吉尔大学与北京大学的研究团队通过深入分析发现,现有基于模型的表示学习方法在核心环节上存在两处系统性偏差,严重限制了其性能上限。为此,他们创新性地提出了名为DR.Q的新算法,全称为“Debiased model-based Representations for Q-learning”。该研究成果已被顶级人工智能会议ICML 2026接收。本文将深入剖析这两个核心偏差问题,并详细解读DR.Q算法的巧妙解决方案。
一、为什么机器的“世界观”会出错
要理解DR.Q的突破,首先需要了解智能体如何构建对环境的认知。在基于模型的表示学习中,智能体通常会将“当前状态观测”和“计划执行的动作”编码成一个低维的潜在表示向量,然后利用这个表示来预测“下一时刻的状态会是什么样子”。
其背后的直觉是:如果一个表示能够精确预测未来状态,那么它必然捕捉到了环境中那些最核心、最具因果关系的特征。现有方法普遍采用最小化预测状态与真实状态之间的均方误差(MSE)来训练这个表示模型,即追求预测值在数值上无限逼近真实值。
这听起来合情合理,但研究团队通过严谨的理论分析揭示了一个根本性缺陷:数值上的接近,并不等同于信息上的高度相关。 类比来说,两个人为了靠近彼此而同时走向一个错误的地点,虽然物理距离缩短了,但他们并未真正理解对方的意图或共享有效信息。
从信息论角度严格表述,“最小化两个向量间的欧氏距离”与“最大化它们之间的互信息”是两个不同的优化目标。互信息衡量的是知道一个变量后,能消除关于另一个变量的多少不确定性。单纯的距离最小化存在“塌缩”风险——例如,模型可能学会将所有输入都映射到同一个常数向量,此时预测误差为零,但互信息也为零,学到的表示毫无信息量。
DR.Q的第一个核心贡献,就是在传统的距离最小化目标之外,显式地引入了一个最大化互信息的目标。这相当于要求模型不仅要做出“位置正确”的预测,更要做出“内涵相关”的预测。通过这一目标,智能体学到的表示不仅能准确拟合未来,更能确保预测与真实情况在信息层面深度绑定,从而有效过滤环境观测中的冗余噪声,提取出更本质、更简洁的环境动态特征。
在工程实现上,由于高维空间中直接计算互信息极其困难,DR.Q采用了高效的InfoNCE对比损失函数作为替代。其核心思想是进行对比学习:将正确的“下一状态”表示作为正样本,将同一批次中其他状态的表示作为负样本,训练模型拉近正样本对的距离,同时推远负样本对的距离。这就像是为一段旋律,从众多歌词片段中精准匹配出最契合的那一段。
二、机器为何会对“早年经历”念念不忘
解决了表示学习的质量问题后,DR.Q面临的第二个挑战来自于训练数据的利用效率,即“经验回放”机制中存在的偏差。
在强化学习中,智能体会将与环境交互的历史数据(状态、动作、奖励、新状态)存储在一个“经验回放缓冲区”中。训练时,从中随机采样小批量数据进行学习,这有助于稳定训练过程并打破数据间的时序相关性。然而,这里潜藏着一个“首因偏差”问题:在训练初期,智能体的策略非常幼稚,其探索行为往往是随机的,因此收集到的早期经验质量普遍较低。但这些低质量经验会长期驻留在缓冲区中,并在后续训练中被反复采样,持续干扰和拖慢学习进程,就像一个人过度依赖童年时期的模糊记忆来做成年后的重要决策。
常见的缓解策略主要有两种。一是优先经验回放(PER),根据每条经验的时序差分误差(TD误差)大小来决定其被采样的概率,误差越大(即智能体对该结果的预测越不准),优先级越高。二是简单的遗忘机制,例如为旧经验赋予随时间指数衰减的采样权重,迫使模型更关注近期数据。
但这两种策略各有其局限性。纯粹的PER会让智能体反复“咀嚼”那些令其“最惊讶”的经历,但这些高TD误差的经验可能源于早期低效的探索策略,与当前正在学习的最优策略已不相关。而纯粹的遗忘机制则可能“误伤”那些虽然发生时间较早,但本身价值极高、非常罕见的成功经验(例如一次偶然的成功探索)。
DR.Q的第二个核心创新,是将两者优势融合,提出了“渐进式优先经验回放”策略。其原理直观而有效:一条经验的最终被采样概率,由它的TD误差(代表信息价值)和它的存储时长(代表新鲜度)共同决定,两者通过乘法结合。经验存放时间越久,其权重衰减越多,但不会降至零;同时,经验本身的TD误差价值越高,其被采样的基础概率就越大。
一个形象的比喻是:传统的PER像是一位只按书籍评分排序的图书管理员,完全忽略出版年代;而单纯的遗忘机制则像一位只按出版日期上架的管理员。DR.Q的策略则像一位更智慧的馆长:优先推荐那些“评分高且出版新”的热门新书,但对于那些评分极高的传世经典旧著,依然会在书架上保留其位置,确保读者有机会看到。
研究团队从数学上证明了该策略具备多个优良性质:在TD误差相同的情况下,新经验总是比旧经验拥有更高的优先级;任何一条经验被重复采样的期望次数存在上界,避免了在某些经验上无限循环;同时,所有经验的被采样概率均大于零,确保了没有经验会被彻底遗忘。在实现细节上,DR.Q采用了改进的LAP算法计算优先级,并为时间衰减权重设置了安全下限,从而更好地保护了那些高价值的早期历史经验。
三、DR.Q的完整架构:如何协同运作
DR.Q的整体框架建立在MR.Q算法的基础之上,但在表示学习和数据利用这两个关键环节进行了根本性革新。其训练流程可分为紧密耦合的两大部分。
在表示学习部分,智能体维护着两个编码器网络:一个将原始环境状态编码为紧凑的潜在表示向量,另一个则将“状态表示”与“执行的动作”联合编码。此外,还有一个轻量级的线性预测器,负责从联合表示中预测下一时刻的状态表示和即时奖励。
训练这一表示系统需要最小化三个损失函数的加权和: 1. 奖励预测损失:确保对即时奖励的预测尽可能准确。DR.Q借鉴了DreamerV3的“两端热编码”技术,增强了对奖励尺度变化和稀疏奖励信号的鲁棒性。 2. 潜在动力学一致性损失:继承自MR.Q,通过均方误差使预测的“下一状态表示”与目标网络计算出的“真实下一状态表示”在数值上对齐。 3. 互信息最大化损失:这是DR.Q新增的核心组件,使用InfoNCE对比损失来最大化当前“状态-动作”联合表示与下一状态表示之间的互信息。
这三个损失函数各司其职,共同塑造出一个高质量的内部世界模型:奖励损失聚焦于决策的直接收益,动力学损失保证了状态转移在时间上的连贯性,而互信息损失则致力于提取纯净、高信息量的环境本质特征。训练通常在多步序列上进行,以更好地捕捉环境的长程动态规律。
在决策学习部分,DR.Q采用经典的确定性策略梯度框架。策略网络根据当前状态表示输出确定性动作,并添加少量噪声以鼓励探索。动作的价值由两个独立的评论家网络进行评估,并采用“截断双Q学习”策略(取两个评论家输出的较小值)来避免价值函数被高估。同时,使用多步回报进行更新,以加速奖励信号在时间上的传播。
值得一提的是,DR.Q在设计哲学上追求极简与通用。它没有引入复杂的层归一化、周期性的参数重置或针对特定任务的精细调参技巧。从简单的连续控制基准到复杂的全身类人机器人任务,DR.Q均使用同一套超参数设置,展现了卓越的泛化能力和鲁棒性。
四、实战检验:跨越73个任务的全面评测
为了全面、客观地评估DR.Q的性能,研究团队在三大主流强化学习基准测试集的共计73个任务上进行了 rigorous 的实验对比。
1. MuJoCo经典连续控制任务:在包括Ant、HalfCheetah、Hopper、Walker2d和Humanoid在内的五个经典任务上,DR.Q在100万步的环境交互预算内,其平均性能超越了MR.Q及大多数基线方法。尽管在“Hopper”任务上表现略逊,但这被认为是使用统一超参数以适应更广泛任务所付出的合理代价。
2. DeepMind Control Suite (DMC):在21个中等难度的任务上,DR.Q的平均标准化得分达到0.886,小幅领先于MR.Q、SimBaV2等强劲对手。而在包含Quadruped(四足犬)和Humanoid(类人机器人)的7个高难度任务子集上,其优势更为明显,IQM得分达到0.917,领先第二名约4个百分点。特别值得一提的是,在极具挑战的“Quadruped Run”任务中,DR.Q在100万步内取得了平均721分的优异成绩。据研究团队所知,这是该任务在同等交互预算下首次突破700分的公开记录。
3. HumanoidBench 类人机器人基准:该基准使用真实的Unitree H1机器人模型,任务复杂度极高。在不带灵巧手的14个基础任务上,DR.Q的IQM得分为0.864,保持领先地位。而在带灵巧手的更高难度版本(观测与动作空间维度急剧膨胀)中,DR.Q的优势被放大到惊人的程度:IQM得分0.452,远超第二名SimBaV2的0.298,领先幅度接近60%。这强有力地证明了互信息损失在过滤高维观测中冗余信息方面的关键作用。
4. 视觉输入任务:在12个以原始像素图像作为输入的DMC任务上,DR.Q同样表现出色,IQM得分0.494,相比其他基于模型的方法取得了超过50%的相对性能提升。
五、拆解分析:每个改进究竟贡献几何
为了厘清DR.Q中每个设计选择的具体作用,研究团队进行了系统的消融实验分析。
互信息损失的作用:当移除InfoNCE对比损失后,在输入维度极高、信息冗余严重的带手类人机器人任务上,性能出现显著下降;而在相对简单的HalfCheetah任务上,影响则较小。这验证了互信息最大化在高维、复杂场景中的必要性。同时,即便移除了该损失,DR.Q凭借其渐进式经验回放等其他改进,其性能仍与原始MR.Q相当。
渐进式经验回放的作用:分别测试“仅使用时间衰减遗忘机制”和“仅使用LAP优先级”的DR.Q变体。结果显示,任何单一机制都可能在特定任务上失效,而两者的结合提供了最鲁棒、最稳定的性能。特别是在类人机器人任务上,移除基于TD误差的优先级采样会导致性能严重崩塌。
动力学一致性损失的作用:移除原始的均方误差损失后,在部分任务上影响有限,但在带灵巧手的复杂任务上性能显著下滑。这表明互信息损失与动力学一致性损失是互补而非相互替代的关系,前者确保信息关联,后者保证数值连贯。
此外,通过t-SNE降维可视化可以发现,DR.Q学习到的状态-动作表示在二维空间中的分布更加连续、紧凑,而MR.Q的表示则更为分散且存在空白区域。这直观地展示了DR.Q所学表示的平滑性与结构性更优。另一个有趣的实验是,在状态向量后拼接50维随机高斯噪声以制造人为冗余,结果显示DR.Q受到的性能损害远小于MR.Q,再次印证了其强大的抗噪声干扰和提取本质特征的能力。
六、讨论与展望
研究团队在论文中也坦诚讨论了对比的公平性以及方法的局限性。
首先,DR.Q使用了比原始MR.Q论文中稍大的网络规模。对照实验表明,即使为MR.Q匹配完全相同的网络结构和超参数,其性能仍显著落后于DR.Q,这证明性能提升主要源于算法层面的创新,而非简单的计算资源增加。
其次,DR.Q在“Hopper”任务上表现不佳,在“Humanoid Visual Run”任务上也未能成功。但后者在100万步的预算内对所有现有方法都是巨大挑战,而前者的性能折损则可能是统一超参数在特定任务上做出的权衡。这反映了设计通用算法与进行任务特异性调参之间的经典矛盾。
目前,DR.Q的设计和验证重心是连续状态与动作空间的控制任务。它尚未在需要复杂探索策略的任务(如稀疏奖励环境)或非马尔可夫决策过程中进行验证,也未在如Atari游戏等离散动作空间基准上进行测试,这些是未来值得探索的方向。
归根结底,DR.Q贡献了两个朴素而强大的核心思想:一是评估一个内部世界模型的好坏,不能只看它预测的数字是否接近,更要看它是否与真实环境动态建立了深刻的信息关联;二是在选择学习哪些历史经验时,需要智慧地平衡其信息价值与时间新鲜度。这两个原则具有高度的通用性,有望被整合到更广泛的基于模型的强化学习框架中,持续推动智能体朝着更高效、更鲁棒、更通用的方向进化。
Q&A
Q1:DR.Q算法里的互信息损失具体解决了什么问题?
A:它从根本上解决了传统基于模型的表示学习方法中,只优化预测状态与真实状态之间的数值距离(如MSE),而无法保证两者在信息内容上高度相关的缺陷。互信息损失强制模型学到的表示不仅能“数值拟合”未来,更要“语义理解”未来,从而提取出更纯净、更本质的环境动力学特征。这一改进在处理高维、信息冗余的观测时(如带灵巧手的机器人视觉输入)效果尤为显著。
Q2:渐进式优先经验回放和普通优先经验回放有什么区别?
A:核心区别在于是否综合考虑经验的“信息价值”和“时间新鲜度”。普通PER只根据经验的预测误差(TD误差)决定优先级,容易导致智能体过度依赖训练早期积累的、与当前策略不相关的低质量经验。渐进式PER则同时考虑TD误差大小和存储时间,为新近的高价值经验赋予更高权重,同时也为那些虽然陈旧但价值极高的罕见成功经验保留学习机会,实现了信息价值与时效性的动态平衡。
Q3:DR.Q在哪类任务上效果最明显?
A:DR.Q在观测空间和动作空间维度高、信息冗余严重、环境动态复杂的连续控制任务上,优势最为突出。例如,在HumanoidBench带灵巧手的类人机器人任务中,其领先幅度接近60%。这类任务充满了大量与当前决策目标无关的细节和噪声,正是DR.Q的互信息损失发挥“信息提纯”和“特征聚焦”作用的理想场景,能有效帮助智能体从海量数据中学习到更鲁棒、更通用的策略。
相关攻略
强化学习是一种让智能体通过与环境交互、从试错中学习最优决策策略的人工智能技术。其核心机制类似于训练宠物:做出正确行为给予奖励,错误行为则没有。智能体在模拟或真实环境中不断尝试,根据反馈调整策略,最终找到获得最高累积回报的行动序列。然而,传统强化学习的样本效率低下是公认的难题——智能体往往需要数百万甚
如果你正在本地尝试对大语言模型进行偏好对齐,但被传统RLHF(基于人类反馈的强化学习)的复杂流程、高昂资源消耗和训练不稳定性所困扰,那么DPO(直接偏好优化)或许就是你一直在寻找的轻量化解决方案。它提供了一条更高效、更可控的技术路径。下面,我们将详细拆解在本地环境中实施DPO训练的具体操作步骤与核心
作为人工智能领域的核心技术之一,强化学习通过模拟生物“试错学习”的机制,使机器能够自主探索并掌握最优决策策略。这种独特的学习范式赋予了AI系统强大的环境适应性与复杂决策能力。本文将深入解析强化学习的基本原理,并探讨其如何驱动多个行业的智能化变革。 一、强化学习的工作原理 理解强化学习,可以类比训练智
当前人工智能领域正积极探索一个关键方向:如何将大语言模型与强化学习算法深度融合。这不仅是技术层面的简单叠加,更是旨在融合两者的核心优势——大模型在语义理解、逻辑推理与任务规划方面的强大能力,结合强化学习通过环境交互与反馈优化序列决策的专长,将催生出怎样的创新突破? 实现这种“优势互补”并非易事,需要
当您观察到HermesAgent在特定任务场景下响应延迟、决策准确率下降,或是环境反馈的奖励信号过于稀疏难以引导学习时,这通常表明其底层的Atropos强化学习框架尚未针对当前应用场景进行深度优化。要实现模型性能的显著跃升,一套科学、系统的微调方案至关重要。接下来,我们将详细解析四种核心的微调策略,
热门专题
热门推荐
近日,国家能源局联合发改委、工信部、国家数据局正式印发《关于促进人工智能与能源双向赋能的行动方案》。这份重磅文件的核心思路非常清晰:一方面,以坚实的能源基础支撑人工智能(AI)的快速发展;另一方面,利用AI技术赋能能源行业转型升级。其核心目标是推动能源、算力、应用场景、数据与算法模型五大关键要素深度
在挑选文生视频工具时,若您正在智谱清影与Runway Gen-3之间权衡,那么了解两者在生成效果上的具体差异,将有助于您做出更明智的选择。本文将从画质清晰度、细节纹理、运动自然度与视频连贯性等核心维度,通过实测对比为您详细解析。 一、画质与分辨率表现 首先对比硬性指标。智谱清影基于CogVideoX
想用通义万相生成一张科技感十足的数据可视化背景,但出来的画面总觉得少了点“内味儿”?数字界面、粒子流、电路纹理这些关键元素一个不见,画面平平无奇?这通常不是工具的问题,而是提示词没有精准锚定科技可视化的核心要素,或者模型参数没调到最佳状态。别急,下面这几种方法,能帮你把想法精准地“翻译”成画面。 一
想要在Vidu生成的视频中实现流畅的慢动作或快进效果?虽然模型界面没有提供直接调整播放速度的滑块,但通过巧妙的提示词设计、利用内置功能,或结合后期处理工具,你完全可以精准掌控视频的节奏与时间感。本文将为你详细解析四种实用方法,从生成前到生成后,全方位满足你的创作需求。 一、通过精准提示词引导运动节奏
当您使用海螺AI生成的英文论文在提交查重时遭遇高重复率或AIGC检测异常,请不要急于归咎于工具本身。核心原因在于,尽管AI生成的文本格式标准、语法地道,但其语言模式和常见短语组合,并未针对知网、维普、万方等中文查重数据库的语义比对逻辑进行专门优化。换言之,机器认为流畅自然的表达,在查重系统的算法看来





