提升复杂任务表现81%:告别奖励试错,运用二次尝试与反思

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新智元报道
编辑:LRST
【新智元导读】强化学习已经成为大模型后训练阶段的核心方法之一,但一个长期存在的难题始终没有真正解决:现实环境中的反馈往往稀疏且延迟,模型很难从简单的奖励信号中推断出应该如何调整行为。
从更宏观的视角来看,大模型的学习方式正在经历一条清晰的演进路径。
早期的监督微调(SFT)主要依赖固定示例进行模仿学习,能够帮助模型学习并复现示例中的规律,但这种方法高度依赖人工数据,不仅难以覆盖复杂环境中的各种情况,也难以支持模型持续自我演进。
随后出现的基于可验证奖励的强化学习(RLVR)将模型带入交互环境,通过奖励信号进行试错优化,使模型能够在动态任务中逐步改进策略。然而,这种方法仍然主要依赖标量奖励,模型需要从稀疏或延迟反馈中隐式推断如何修正行为,往往导致探索效率低、训练过程不稳定。
相比之下,人类在面对复杂任务时往往会经历一个「体验—反思—再尝试」的循环。个体在获得反馈后会主动分析失败原因,总结经验,并在下一次尝试中应用修正策略,而不是只根据结果好坏不断重复试错,直到成功。
近日,美国南加州大学和宾夕法尼亚大学的研究团队联合提出了一种新的训练范式——Experiential Reinforcement Learning(ERL),试图将「经验学习」的思想引入强化学习流程,使模型不再只是通过试错优化行为,而能够进行反思并将经验内化到策略中。

论文链接:https://arxiv.org/abs/2602.13949
ERL正是试图在训练过程中显式引入这一经验学习循环。模型在接收到任务后首先进行一次尝试,随后根据环境反馈生成自我反思,再基于反思进行第二次尝试,并将成功的行为内化进基础策略中。

图1:ERL通过引入「经验—反思—内化」循环,将强化学习从单纯依赖奖励信号推进到基于经验的学习方式,相比监督微调和传统强化学习能够实现更直接的行为修正。
从机制层面来看,传统强化学习主要依赖试错过程和标量奖励信号进行优化。
在这一过程中,环境中原本包含的大量反馈信息往往被压缩为一个简单的奖励数值,例如成功或失败,许多能够帮助理解错误原因的细节难以被利用。
同时,传统方法通常缺乏跨回合积累经验的机制,每一次交互都更像是相对独立的探索过程,模型只能通过不断试错逐步逼近正确策略,这也使得学习过程往往效率较低且不够稳定。
相比之下,ERL尝试直接利用反馈中的信息生成反思,并通过经验内化机制将有效策略持续保留,使行为改进能够在后续任务中不断积累,从而形成更加稳定的学习过程。

图2:传统强化学习主要依赖反复试错进行探索,而ERL通过反思机制对失败进行分析并修正策略,使行为改进能够持续积累。
二次尝试机制与经验内化
在ERL框架下,每个训练回合都包含三个关键生成步骤:第一次尝试、反思以及第二次尝试。
模型首先根据输入任务生成第一次回答并与环境交互获得反馈,得到对应的奖励信号;随后基于这次尝试及其反馈生成一段反思,用于总结可能的改进方向;最后模型再根据反思进行第二次尝试,得到新的结果和奖励(图3)。
在训练过程中,这三个步骤产生的输出都会参与常规的强化学习策略更新,但它们对应的奖励来源有所不同。第一、二次尝试直接使用其与环境交互得到的奖励信号;而反思本身的奖励则与第二次尝试绑定——如果反思能够帮助产生更好的结果,它就会获得更高的奖励。
这种设计本质上将「反思是否有效」转化为可学习信号,使模型逐渐学会生成更有帮助的反思内容。
与此同时,ERL还引入了一个额外的「经验内化」步骤,用于将反思带来的改进转化为模型在推理时可以直接使用的能力。
具体做法是:当第二次尝试获得较高奖励时,训练会额外加入一个蒸馏目标,让模型在不提供反思上下文的情况下直接从原始输入生成改进后的答案。
这一过程本质上是一种上下文蒸馏(context distillation),其作用是将依赖反思才能得到的行为修正「写入」基础策略,使模型在部署时无需显式反思也能复现改进效果。

图3:ERL训练流程示意图
从整体来看,这一机制将反思引入强化学习轨迹内部,使模型能够在同一回合内完成局部行为修正,同时通过蒸馏将有效经验沉淀为长期能力,从而形成「生成—反思—改进—内化」的闭环学习过程。
在复杂环境中显著提升性能
论文在三类经典任务上验证了ERL的效果,包括两个稀疏奖励环境Frozen Lake和Sokoban(推箱子),以及多跳问答任务HotpotQA
需要注意的是,论文中的Frozen Lake和Sokoban环境并不是传统语言模型评测中常见的文本版本。在许多既有设置中,模型通常会被明确告知环境符号含义、规则或任务结构,而该研究刻意不提供这些先验信息。
模型只能通过与环境交互获得观察结果和奖励信号,自行推断符号语义、行动后果以及任务目标,从而逐步形成策略。
这一设计更接近真实未知环境,旨在评估模型在缺乏先验知识情况下通过经验进行学习和自我改进的能力。结果显示,ERL在所有任务上都优于传统RLVR方法(图4)。

图4:ERL与RLVR的最终性能对比
其中,在需要长时间规划和策略推理的Sokoban环境中,性能提升最为明显,最高提升达到81%。FrozenLake也取得约27%的提升,而在HotpotQA这类反馈相对更密集、环境更简单的任务中,提升约为11%。
研究人员指出,这一结果表明ERL在需要推断环境动态和长期决策的场景中优势更加突出。
更快收敛的训练动态
从训练曲线来看,ERL在整个训练过程中都保持了更高的奖励水平,并且在相同训练预算下整体收敛速度更快,与传统RLVR方法持续拉开差距(图5)。
这一点在稀疏奖励、长规划的环境中尤为明显:当奖励只在终局给出时,纯粹依赖标量奖励的策略梯度更新往往需要大量有效轨迹才能产生稳定改进,而ERL通过在同一回合内引入「失败—反思—再尝试」的结构,将一次交互中的反馈信息转化为可执行的修正方向。
论文认为,反思在训练中提供了一种额外的中间纠错通道,使模型不必完全依赖稀疏的最终奖励去推断行为改进方向,而是能够在获得反馈后生成更明确的修正线索,并用于后续尝试,使得训练更新更集中在接近成功的轨迹上,减少了在无效策略空间中的探索,从而表现为整体收敛更快且曲线更稳定。

图5:ERL与RLVR的训练效率对比
消融实验
记忆与反思步骤对训练表现的影响
为了更清楚地理解性能提升来自哪些机制,论文对ERL的关键组件进行了消融分析。
研究分别构造了两个变体:一是移除结构化反思步骤,模型不再根据第一次尝试生成反思,而只是基于已有上下文进行再次尝试;二是移除跨回合记忆机制,虽然仍然生成反思并用于当前回合的改进,但这些反思不会被保存用于后续任务。
结果显示,当移除反思机制时,模型性能下降最为明显(表1)。由于缺少对失败原因的结构化总结,第二次尝试更接近于简单的「再试一次」,难以形成有效纠错,因此整体奖励显著降低,表明反思是ERL产生即时改进效果的核心来源,它为模型提供了可操作的行为修正线索,使同一回合内的尝试更有针对性。
相比之下,移除记忆机制主要影响收敛速度。虽然模型仍然能够在单个回合中通过反思实现改进,但由于无法跨任务积累有效的纠错经验,每一次交互都更接近从零开始推断,导致整体学习过程变慢。这说明记忆机制的作用在于将有效策略持续保留下来,使改进能够在训练过程中逐步积累,从而形成更加稳定的策略提升。

表1:消融实验的最终表现
从模仿学习到经验学习的范式演进
作者将当前大模型训练方式概括为一条逐步演进的路径:从监督微调依赖示例模仿,到强化学习依赖奖励信号进行优化,再到经验强化学习(ERL)强调从经验中学习。
相比前两者,ERL通过引入反思与内化机制,提供了一种将失败转化为可利用学习信号的显式路径,使模型能够在交互过程中持续积累行为修正经验。这一视角也与近年来「经验数据将成为下一代AI主要训练来源」的观点相呼应。
论文指出,ERL展示了一种构建经验驱动AI系统的可能路径,通过反思和经验内化,模型能够在训练过程中不断沉淀纠错策略,并在部署时直接应用这些经验,而无需额外推理成本。
如果这一方向得到进一步验证,它可能成为构建长期自主智能体的重要基础,使强化学习从单纯的优化方法逐步演变为更接近人类学习过程的训练范式。
结语
强化学习的发展正在经历一次微妙但重要的转变。从依赖奖励信号的试错优化,到强调经验转化与行为修正,研究者正在尝试让模型具备更接近人类的学习能力。
经验强化学习(ERL)所提出的经验—反思—内化框架,展示了一种将交互过程转化为持续学习能力的可能路径,也为构建能够长期自我改进的智能体提供了新的思路。
参考资料:
https://arxiv.org/abs/2602.13949
相关攻略
这项由MiroMind团队开展的研究发表于2026年3月16日的arXiv预印本平台,论文编号为arXiv:2603 15726v1。有兴趣深入了解的读者可以通过这个编号查询完整论文内容。说到人工智
这项由SenseTime Research联合南洋理工大学、加州大学伯克利分校、加州大学圣地亚哥分校、卡内基梅隆大学等多所知名院校合作的研究,发表于2026年3月的arXiv预印本平台,论文编号为a
这项由艾伦人工智能研究院(Allen Institute for AI)领导的突破性研究发表于2026年,论文编号为arXiv:2603 16861v1。研究团队包含来自华盛顿大学、普林斯顿大学、加
这项由上海科技大学联合腾讯混元团队共同完成的研究发表于2026年3月的arXiv预印本平台,论文编号为arXiv:2603 01142v1。对于想要深入了解技术细节的读者,可以通过该编号查询完整的学
新华社赫尔辛基3月6日电(记者朱昊晨 徐谦)芬兰阿尔托大学参与的一项最新研究发现,一些介观尺度的微小生物并非靠“更用力”或“长得更大”来游得更快,而是通过让运动在时间上呈现更强的不对称性来提升推
热门专题
热门推荐
3月30日消息,今晚除了手机之外,vivo还发布了全新的旗舰平板——vivo Pad6 Pro。行业首发13 2英寸4K原彩屏,分辨率3840×2160,347PPI,支持1-144Hz LTPS自
WPS表格中提取括号内容有四种方法:一、单对英文小括号用FIND+MID;二、中英文括号通用需SUBSTITUTE预处理;三、多对括号取最后一对需REVERSESTRING反向查找
3月30日,南京新街口核心商圈,苏豪大厦一楼广场上机器人迎宾起舞,充满科技感。由苏豪资产运营集团与南京新街口金融商务区管理委员会(以下简称“新街口管委会”)共同打造的“数智苏豪”新街口OPC社区揭牌
电 动 知 家消 息,近日,据外媒报道,据福特汽车日前发布的一份文件,该公司首席执行 官吉姆·法利2025年的总薪酬大幅增长了11%,达到约2752万美元(约1 9亿元人民币),这是其自2020年末
白宫里,一台人形机器人缓步走入东厅,与美国“第一夫人”并肩亮相,动作仍带着明显的机械感;仅仅一天后,国会山上,这种“会走路的机器”却被划为潜在安全威胁,写进立法提案。这是上周美国上演的荒诞一幕。两党





