RLHF里没有真正强化学习正如老婆饼没有老婆_AI热点日报

就像老婆饼里找不到老婆、夫妻肺片里没有夫妻一样，RLHF（基于人类反馈的强化学习）中其实也缺乏真正意义上的强化学习。德克萨斯大学奥斯汀分校的 Atlas Wang 副教授最近在一篇博文中提出了这一引人深思的观点。他的核心论点非常清晰：RLHF 以及一系列类似的技术，并没有为大型语言模型（LLM）带来

就像老婆饼里找不到老婆、夫妻肺片里没有夫妻一样，RLHF（基于人类反馈的强化学习）中其实也缺乏真正意义上的强化学习。德克萨斯大学奥斯汀分校的 Atlas Wang 副教授最近在一篇博文中提出了这一引人深思的观点。他的核心论点非常清晰：RLHF 以及一系列类似的技术，并没有为大型语言模型（LLM）带来真正的强化学习能力，因为它们缺少了 RL 最本质的两大要素——持续的环境互动与长期的策略优化。RLHF 本质上只是在进行单步或几步的优化，通过调整模型的输出以迎合人类的偏好，而非在一个动态环境中反复尝试、不断调整多步策略。此外，RLHF 通常是离线或半离线执行的，缺乏实时的环境反馈与策略迭代，因此它最多只能改善模型的“对齐”效果和输出质量，却无法让 LLM 真正“产生”去赢得某项任务的意愿——LLM 本质上依然是一个基于上下文来预测下一个 token 的统计系统。

这篇博文探讨了几个非常有趣的问题：RLHF 与经典强化学习的核心差异究竟在哪里？为什么这些方法实际上无法让 LLM 形成真实的目标或意图？为何至今没有人采用“真正的强化学习”来大规模训练 LLM？当前，哪种方法最接近于赋予 LLM 一个“目标”？缺乏目标驱动的 LLM 会带来哪些后果？深入理解这些细节，可以帮助我们更清醒地认识到 LLM 能做什么、不能做什么以及其中的原因。谷歌 DeepMind 的首席科学家 Denny Zhou 转发了这篇文章，并评价道：“对于任何有强化学习背景的人来说，这些观点可能显而易见；但对于刚接触这一领域的人而言，这是一份非常不错的入门介绍。”

01 RLHF与经典强化学习的关键区别

什么是经典的强化学习？在传统 RL 的框架中，通常包含以下几个要素：

一个在环境中采取行动的智能体。
环境会根据智能体的行动而发生状态变化。
智能体的行动会获得奖励或惩罚，其目标是在多步交互中实现长期累积奖励的最大化。

核心特征在于：持续或间歇性的交互过程。智能体会不断探索各种状态、做出决策、观察奖励，并在一个连续的闭环中优化自己的策略。

而 RLHF 则是一种利用基于人类偏好数据训练出的奖励模型来优化模型输出的工作流程。其常见步骤包括：

监督微调（SFT）：首先在高质量的标注数据上对基础语言模型进行训练或微调。
奖励模型训练：收集成对的模型输出，让人类标注者挑选出更偏好的那个，然后训练一个“奖励模型”来模拟人类的判断。
策略优化：使用类似强化学习的算法（通常是 PPO，即近端策略优化）来调整 LLM 的参数，使其输出更加符合奖励模型的评价。

与传统的强化学习不同，RLHF 中的“环境”本质上只是一个单步的文本生成过程加上一个静态的奖励模型——它缺少持续的循环机制和不断变化的状态。

02 为什么RLHF（及相关方法）不是真正的强化学习？

单步或几步的优化。在 RLHF 中，LLM 根据给定的提示生成文本，随后奖励模型给出一个单一的偏好分数。这里的“强化”步骤更像是一次性的策略梯度优化，目标是产生符合人类偏好的输出，而不是让智能体在一个不断变化的环境中进行多步行动和反馈的闭环。这更像是一种“一锤子买卖的评分”，而非让智能体随时间推移探索多个行动并接收环境反馈。
大多采用离线或半离线方式。奖励模型通常是基于人类标注的固定数据离线训练，然后用于更新 LLM 的策略。当 LLM 在线调整策略时，并没有实时地去探索一个连续的环境循环。
缺乏基于环境的长期目标。经典的 RL 智能体能够追踪多个状态下的长期回报。相比之下，基于 RLHF 的 LLM 训练只关注于根据人类偏好调整即时的文本输出。LLM 并没有在一个动态环境中航行多个时间步的能力。
表面约束 vs. 真正的内在目标。RLHF 可以有效地影响某些输出的概率，引导模型远离不受欢迎的内容。然而，模型内部并没有形成“想要”去产生这些输出的内在驱动力；它依然是一个生成下一个 token 的统计系统。

请记住，无论是 RLHF、SFT 还是其他方法，LLM 的训练从来就不是为了形成真正的目标或意图！LLM 的核心是根据输入的上下文预测下一个词汇。它的“动机”纯粹是为了最大化预测下一个 token 的准确率（这个准确率由训练数据及后续的微调信号决定）。在这个过程中，并不存在任何主观层面的愿望或意图。我们常说 AlphaZero“想要”在国际象棋中获胜，但这只是一种便于理解的简化说法。从内部机制来看，AlphaZero 只是在最大化一个数学上的奖励函数而已，没有任何感觉上的欲望。同样，经过 RLHF 微调的 LLM 也在最大化对齐奖励信号，但内心并没有真正的渴望状态。

03 RLHF 与 IRL 的异同点

亚利桑那州立大学的计算机科学教授 Subbarao Kambhampati 指出，“RLHF”这个名字其实有些名不副实，因为它实际上是将从人类判断中学习偏好或奖励模型（这在概念上更接近于逆强化学习，即 IRL）与一步或几步的策略优化结合在了一起，而非经典强化学习中那种典型的长期迭代交互过程。

IRL：在经典的表述中，智能体通过观察专家在一个动态环境中的演示来推断其奖励函数。相比之下，RLHF 通常收集的是静态的成对比较（比如：“这两个模型输出你更喜欢哪一个？”），然后训练一个奖励模型去模仿人类的偏好。这里并不涉及在不断演化的环境中进行多步专家轨迹的扩展。
RL 中的偏好学习：在当前的深度强化学习研究中，有一些方法可以通过对轨迹 rollout 的成对比较来学习奖励函数（例如，“你更喜欢机器人步行者的哪种步态？”）。但这些方法的样本复杂度往往很高（需要多次询问人类），因此许多研究论文采用在受控任务中模拟人类反应的方式。
为什么 RLHF 也不算“经典 IRL”：尽管 RLHF 在学习偏好模型这一点上让人联想到 IRL，但它并非分析专家行为随时间演化的经典范式。相反，RLHF 侧重于人类对最终输出或短序列输出的静态判断。所以，RLHF 仍然主要是离线或接近离线的，这进一步限制了它与传统 IRL 设置的相似性——尽管 Subbarao Kambhampati 也评论说，从成对偏好中学习奖励函数已经成为（I）RL 文献中的主流方法！

04 CoT、PRM 或多智能体工作流能解决这个问题吗？

基于流程的奖励模型与思维链

基于流程的奖励模型可能会对中间的推理步骤（思维链或 CoT）提供反馈，而不仅仅是根据最终输出（比如问题的最终答案）来给予奖励。这样设计的目的是鼓励模型以一种更具解释性、准确率更高或更符合特定标准的方式展示其推理过程。这是“真正的强化学习”吗？并不是。即使你给中间步骤分配了部分奖励（比如针对 CoT 解释进行打分），你仍然处在这种环境下：通常你将整个输出（包含推理过程）输入奖励模型，获得一个总体奖励，然后进行一次策略优化。这并不是在一个动态环境中，让 LLM 先“尝试”部分推理步骤、获得反馈、进行调整，然后在同一个 episode 里继续进行开放的循环。因此，尽管 CoT/PRM 会给人一种多步强化学习的错觉（因为你对中间步骤进行奖励或惩罚），但它实际上仍然相当于对单一步骤（文本生成和推理）进行离线或近似离线的策略调整，而不是经典强化学习中那种持续的智能体-环境循环。

多智能体工作流也无法奇迹般地创造意图

你可以在工作流中协调多个 LLM 协同工作（比如“系统 A 生成计划，系统 B 批改计划，系统 C 完善计划”），但从内部来看，每个 LLM 仍然是根据下一个 token 的概率来生成文本。尽管这样的多智能体设置可以表现出看起来协调或有目的的涌现行为，但并没有赋予任何单个模型内在或持续持有的目标。为什么我们的多智能体 LLM 工作流常常看起来像是拥有意图？因为人类会自然而然地倾向于将心理状态投射到行为看似有目的的系统上，这就是所谓的“意图立场”。但实际上，每个 LLM 智能体只是在响应预设的提示。每个智能体背后的思维链并不等同于个人的欲望或驱动力；它仅仅是一个在多步骤反馈回路中更加复杂的 prompt-completion 过程。因此，多智能体协调可以产生非常有趣的新兴任务解决能力，但 LLM 本身仍然不会产生“我想要这个结果”的内在动机。

05 为什么至今还没有人用“真正的强化学习”训练 LLM？

成本过于高昂！对大规模模型实施经典强化学习需要一个稳定、可交互的环境，外加海量的计算资源来运行重复的 episode。每一轮训练所需的前向传递次数，对于今天动辄数十亿参数的 LLM 来说，成本实在太高。
缺乏清晰的环境定义。文本生成并非天然的“状态-动作转换”环境。当然可以尝试将它包装成类似游戏的模拟环境，但这需要为多步文本交互精心定义奖励结构，这绝非易事。
现有方法已经足够好。在许多应用场景中，RLHF 或 DPO（直接偏好优化）已经能够产生令人满意的对齐效果。实事求是地说，团队更倾向于使用更简单的离线方法，而不是投入巨资构建复杂的 RL 管道，以巨大的成本去换取微小的性能提升。

06 最接近赋予 LLM 一个“目标”的现有方法是什么？

当前最接近赋予 LLM 一个“目标”的方法，实际上是借助提示工程的巧妙设计，或者将多个 LLM 提示串联成一个循环，从而构建一个元系统或“智能体”。像 Auto-GPT 或 BabyAGI 这样的工具试图模拟智能体的行为：它能够接收自然语言目标（例如：“研究 X，然后制定一个计划”），然后反复进行计划、分析和自我提示，评估进展并完善计划。然而，所有这些“目标保持”的行为都是在系统层面，通过提示或链接逻辑来协调实现的，而非来自 LLM 内部的动机状态。LLM 本身仍然是被动地对提示做出反应，缺乏内在的欲望。

多智能体是另一种“穷人的解决方案”。正如上文所讨论的，你可以协调多个 LLM 对彼此的输出结果进行评论或验证，从而有效地划分子任务并组合出部分解决方案。这看起来像是拥有了目标，但同样，“目标”是由工作流和提示从外部协调的；LLM 本身不会自发地生成或坚持自己的目标。

07 LLM 缺乏“真正目标”所带来的后果

简化了对齐过程（在某些方面）。由于 LLM 没有真正追求个体目标的强烈动机，它们不太可能“绕过”限制或自主计划非法行为。对齐工作通常相当于设置正确的提示约束和进行适当的微调，将其输出推向可接受的范围内。Anthropic 最近的博客也与这一观点相关（参见《震惊！Claude 伪对齐率竟能高达 78％，Anthropic 137 页长论文自揭短》）。
增加了委派开放式任务的难度。如果我们希望 AI 能够自发地发现新问题、积极地收集资源，并坚持不懈地解决这些问题，就需要一个具有持续内驱力的系统——类似于真正的强化学习智能体或高级规划系统。目前的 LLM 还无法以这种方式实现真正的自我启动。
可能导致创新能力的缺失。在丰富的 RL 环境中进行自由探索，有时能产生惊人的发现（例如 AlphaZero 在国际象棋或围棋中的突破）。如果我们仅仅依赖于只有表面反馈的单步文本生成，可能会错失由多步奖励优化所带来的全新策略和创新。

不过，这也存在积极的一面。一个积极的方面是：缺乏持续目标的 LLM 在某种意义上更加透明和可预测。它本质上是一个由即时反馈信号引导的强大下一个 token 预测器——而不像多步 RL 循环那样，拥有复杂且可能隐藏的目标。

08 明确时间跨度、目标、奖励与行动空间

单步或几步方法（如 RLHF 或 DPO）与“真正的”强化学习之间的关键区别在于时间跨度：

短期优化：RLHF 和 DPO 有效地针对即时（一步）反馈进行优化。即使反馈函数是基于人类标注数据学习得到的，也依然不存在长期规划所必需的持续状态-行动循环。
长期优化：在经典强化学习中，智能体会对多个步骤的累积奖励进行优化，从而形成类似于“目标”的东西。奖励模型与行动空间相结合，可以驱动在动态环境中塑造多步骤行为的策略。

此外，强化学习通常假定一个定义明确的行动空间（例如，在游戏中将棋子向上/向下/向左/向右移动）。而在于 LLM 微调中，“动作”的概念是模糊的，通常被直接参数更新或生成 token 所取代。增强提示，甚至仅仅是从固定词汇表中生成 token，都可以被看作是“动作”，而“环境”则是 LLM 的内部状态。然而，这是对强化学习循环的一种非标准或不同寻常的重新诠释。

另一个需要厘清的问题是强化学习中奖励与目标之间的区别。原则上，强化学习的“奖励”是指导智能体学习过程的信号，而不总是明确的最终目标。如果奖励非常稀疏（仅在成功 episode 结束时提供），智能体的实际“目标”可能看起来就是“达到成功条件”。然而在实践中，良好的强化学习设计通常会用密集的奖励信号来引导中间状态，从而帮助智能体更有效地学习。对于 LLM 而言，“目标”的概念意味着对某些目标的持续、多步骤的追求。由于 RLHF 通常是在单步或几步过程中进行的，所以模型从未真正形成长期目标的内部表征。它只是根据奖励模型或偏好函数来优化即时的文本输出。

09 结语与反思

RLHF、DPO、宪法 AI（Constitutional AI）以及其他受强化学习启发的微调方法，对于让 LLM 更加一致和有用做出了巨大贡献。它们使我们能够利用人类的偏好来塑造模型输出，减少有害内容，并引导 LLM 的响应风格。然而，这些技术并不能为 LLM 提供真正的长期目标、内部动机或经典强化学习意义上的“意图”。LLM 仍然是一个复杂的下一个 token 预测器，而不是一个自主的智能体。

那么，未来如果我们希望 LLM 拥有真正的强化学习能力怎么办？假如有一天，研究人员成功地将 LLM 集成到实际的多步骤强化学习框架中（可以想象：一个智能体在模拟或现实世界中导航，不断阅读和生成文本，接收反馈，并实时调整策略），那么我们就可能接近真正的智能体行为。但这需要大量的计算资源、精心的环境设计以及强大的安全措施。在此之前，我们所拥有的系统——尽管功能强大——从根本上来说仍然是被动的、由离线或半离线反馈信号塑造的下一个 token 预测器。

为什么理解这一点至关重要？

从业者应该意识到这些局限性，不要高估 LLM 的自主性。
政策制定者和伦理学家应该认识到，LLM 不可能自发地策划或撒谎以达到隐藏的目的，除非被特定的提示引导去模仿这种行为。
反过来看，如果未来的系统真的结合了具有大规模计算能力和动态环境的“真正强化学习”，我们可能会看到更多类似智能体的突发行为——这就会引发全新的对齐与安全挑战。

10 未来的发展方向？

更高的样本复杂度：一个经常出现的限制因素是，基于偏好的学习可能需要大量的人类 token 比较，尤其是当任务变得越来越复杂时。研究人员通常采用模拟人的判断来进行强化学习实验，但这又带来了新的问题——这些模拟器能否忠实地模拟真实的人类偏好。
扩展到长期任务：许多专家怀疑，基于短期输出的成对比较能否直接扩展到更复杂的多步骤任务。使用 LLM 进行真正的多步强化学习需要一个环境，在这个环境中，模型可以进行探索、获得中间奖励并进行迭代优化——而目前来看，这非常昂贵，且无法进行大规模广泛实施。
衔接符号与次符号方法：对于真正的长期偏好（例如需要概念或符号理解的任务），纯粹的“原始”配对偏好数据可能并不足够。可能需要某种形式的结构化、符号化反馈（或一种“通用语言”），才能有效地将人类的细微目标传达给人工智能系统。

最后，尽管 RLHF、DPO 以及相关方法提供了一种实用的途径，可以在短期环境中使 LLM 与人类偏好保持一致，但它们无法赋予 LLM 真正、持久的目标或意图。这些方法也只是与经典的强化学习或逆强化学习范式略有对应。未来的系统若能在真正的多步强化学习循环中使用 LLM，就有望解锁更多自主的、类似智能体的行为，但同时也会引发一系列全新的安全性与一致性问题。