智能体强化学习正重新定义AI性能下限

时间：2026-06-29 17:42

如果 ChatGPT 的横空出世让世界第一次意识到 AI 的“语言天赋”，那么这两年来的 Agentic RL（智能体强化学习），正在让 AI 学会第二件事——行动。可以这么理解：传统的大语言模型更像是一支拥有海量词汇的笔。它写得快，输出也漂亮，但所有事情都得你手把手告诉它怎么写，往哪个方向构思。

如果 ChatGPT 的横空出世让世界第一次意识到 AI 的“语言天赋”，那么这两年来的 Agentic RL（智能体强化学习），正在让 AI 学会第二件事——行动。

可以这么理解：传统的大语言模型更像是一支拥有海量词汇的笔。它写得快，输出也漂亮，但所有事情都得你手把手告诉它怎么写，往哪个方向构思。而 Agentic RL 要做的，是把这支笔装上一个“大脑”。它能自己感知你的需求，拆解任务，主动调用搜索引擎和代码工具，发现中间某一步走错了还能停下来反思、调整策略，最后交付一个完整的成果。

从“文本生成器”到“自主智能体”，这看似只是训练方法的迭代升级，但实际上意味着 AI 的能力维度被彻底打开了。从 DeepSeek-R1 的推理能力，到 GLM-5.2 的长程任务优化，再到字节跳动 Forge 框架百万级的样本吞吐量，Agentic RL 早已不再只是实验室里的理论模型，而是实打实地进入了工业级工程实践。

那么，这场范式转变的技术内核到底是什么？这篇文章就从工程实践的角度，带你拆解一下 Agentic RL 的全貌。

1、一个根本性的认知：RLHF 不是 Agentic RL

要真正搞懂 Agentic RL，得先把它和我们更熟悉的 RLHF（基于人类反馈的强化学习）区分清楚。这两者之间的本质差别，远比大多数人想象的要大。

很长一段时间里，RLHF 和它的简化版 DPO 都是 LLM 后训练的主要方法。它们可以统一归到“基于偏好的强化微调”这个类别里。这类方法的优化目标非常明确：给定一个提示，模型的输出越符合人类的单次偏好，得分就越高。

这种模式是典型的“单轮静态决策”问题，对应的是一个极其简化的马尔可夫决策过程（MDP）：从用户的 Prompt 出发，执行一次动作，生成一条回答，拿到奖励，然后游戏结束。

而 Agentic RL 的野心完全不同。它把 LLM 看作是嵌入在动态环境里的自主决策体，通过“部分可观测马尔可夫决策过程”（POMDP）来建模。模型要在复杂的任务环境里持续感知环境、循环决策、使用工具、阅读反馈，而且得学会自我修正。奖励不再是到终点才给，而是在整个行为过程中都有分布——每一步都可能成为学习对象。

两者核心差异可以用下面这张表看得更清楚：

对比维度	传统 PBRFT（RLHF/DPO）	Agentic RL
状态空间	单一提示 {s₀}，任务立即结束	动态状态流 sₜ ∈ S_agent，任务时长远大于 1
动作空间	纯文本序列	文本 ∪ 工具调用 ∪ API 请求
状态转移	确定性终止	动态转移函数 P(sₜ₊₁ \| sₜ, aₜ)
奖励结构	单一标量 r(a)	步骤级密集奖励 + 稀疏终局奖励
优化目标	E[r(a)]	E[Σ γᵗ R(sₜ, aₜ)]

这张表揭示了一个非常关键的问题：信用分配（Credit Assignment）。在多轮交互中，你如何判断哪些中间步骤真正对最终结果起到了贡献？数学题解到一半，哪个推理步骤是有效的？在多个工具调用中，哪个 API 的返回值真正推动了任务？这些问题在 RLHF 里根本不存在，但在 Agentic RL 中却成了最核心的挑战。

2. 八大工程原则：构建 Agentic RL 系统的完整蓝图

为了方便理解，我们把 Agentic RL 按系统架构设计→训练信号设计→算法优化技巧→训练策略来归类梳理。

2.1 第一层：系统架构设计

原则一：模块化设计（Modular Design）——像搭积木一样构建 Agent 系统

Agentic RL 训练系统的工程架构，核心思想是解耦。一套标准的异步训练流水线通常包含四个阶段：用较高的温度参数采样生成响应；异步汇聚多个处理器的结果；执行 Actor 训练，将模型响应与真实标签对比来计算奖励；计算优势值；如果所有优势都为零，则提前终止。

在架构范式上，业界主要采用两种设计：一是并行架构（Parallel），智能体同时与多个环境实例交互，状态和动作的流转通过统一的训练引擎进行批量更新，效率最高；二是序列架构（Sequential），交互按顺序执行，更适用于需要严格状态依赖的任务。

把策略模型（Policy）、环境交互（Environment）、奖励计算（Reward）和训练更新（Training）彼此分离的模块化理念，正是当前主流框架的设计哲学。

字节跳动的 HybridFlow（开源项目名：verl）就是这一思路的典型代表。它提出了一套分层 API，把 RL 训练中复杂的计算和数据依赖解耦并封装起来，支持经典对齐、推理增强、智能体工具调用等多种场景的框架。核心技术亮点是 3D-HybridEngine——在训练和生成阶段对 Actor 模型进行高效的重新分片，实现零内存冗余，大幅降低通信开销。实验结果表明，HybridFlow 在运行各种 RL 训练任务时，相比现有最优基线，能够带来 1.53 倍到 20.57 倍的吞吐量提升。这篇论文已经被 EuroSys 2025 收录。

类似的架构理念也体现在 MiniMax 的 Forge 框架上——它原生支持数十万 Agent 脚手架和环境交互、支持 200K 上下文长度，实现了每天百万级样本吞吐；还有复旦大学和字节跳动联合开源的 AgentGym-RL，也采用了模块化解耦的统一 RL 框架，支持 27 种以上的多样化任务评测。

2.2 第二层：训练信号设计

原则二：轨迹结构（Trajectory Structure）——Agentic RL 的核心数据单元

如果 RLHF 处理的是“提示-回答”这样的单点数据，那么 Agentic RL 处理的则是 Trajectory——一个完整的闭环循环：用户提出问题→智能体执行动作并调用工具→环境返回反馈→智能体基于反馈做出下一步决策。

这种轨迹结构有三个关键特征：多步序贯决策，单条轨迹包含多个时间步的状态转移，每一步都可能涉及工具调用或环境交互；部分可观测性，智能体无法获取环境的完整状态，只能基于当前观察做决策；稀疏延迟奖励，最终奖励往往在轨迹末端才给出，中间步骤只有过程反馈。

举个具体的例子：用户请求“分析 GitHub 仓库的代码质量”，智能体需要依次调用 GitHub API 获取仓库信息（权重 +0.1），读取主要代码文件（权重 +0.1），分析代码质量（权重 +0.2），生成分析报告（权重 +0.6），总奖励是各步累积的 1.0。这种分步奖励机制使得如何在长链条中准确判断每一步的价值，成为 Agentic RL 的核心技术挑战。

原则三：智能体掩码（Agent Mask）——让 RL 和 SFT 协同工作

单纯的 RL 训练容易导致“奖励黑客”或“策略坍塌”——模型学到一种看似高分、实则偏离正常行为分布的“捷径”。解决方案是把强化学习和监督微调以加权方式融合起来。核心公式可以简洁地表示成：

ECHO = RL + α·SFT

这里的 α 控制着 SFT 损失在整个目标函数中的贡献比例。这就好比教一个人学新技能：既要有探索和实践（RL），也要时不时对照标准范本来巩固基础（SFT）。在实际操作中，α 通常会在训练过程中动态调整——初期设高一些，保证基线能力；后期再降下来，释放探索空间。

原则四：过程奖励（Process Rewards）——奖励设计的两难抉择

在 Agentic RL 中，奖励函数的设计直接决定了模型的学习方向。目前主流的方案有两类：结果奖励（ORM）只对最终结果打分，实现起来比较简单，适合答案明确可验证的任务（比如数学、代码）；过程奖励（PRM）对中间每一步逐一评估，能提供密集信号，更适合长链路推理任务（比如多步规划）。

PRM 最大的优势在于缓解稀疏奖励问题——在多轮 Agent 任务里，如果只在轨迹结束时给一个二元反馈（成功或失败），模型很难判断哪些中间步骤真正起到了作用。但 PRM 的训练成本也确实更高，需要高质量的过程标注数据。最近的研究方向包括用蒙特卡洛采样来估计过程奖励，或者引入生成式 PRM 来替代判别式 PRM。

2.3 第三层：算法优化技巧

原则五：优势归一化（Advantage Normalization）——让训练信号更公平

在传统的 PPO 算法中，优势函数是基于全局批次计算的。但在 Agentic RL 场景下，这种方法会带来一个严重问题：不同任务的难度差异可能非常大。简单任务的 Advantage 信号很容易被困难任务的数值给“淹没”掉。

ERPO（Environment-level Relative Policy Optimization）算法提出的解决思路是在同一环境内部进行组内归一化。对来自环境 i 的第 j 个样本，其标准化优势值的计算公式为：

这里统计计算的范围是环境维度，而不是全局批次维度。这就意味着，每一条轨迹的优势值反映的是它在同一难度任务组内的相对表现，而不是和所有难度级别的任务去横向比较。这种“分层比较”的思路，让训练信号变得更加公平和稳定。

这个设计与 GRPO（Group Relative Policy Optimization）的核心思想是一脉相承的——GRPO 会对同一个 Prompt 生成的多个响应，计算组内的均值和标准差来进行归一化，这样一来，就不需要独立的价值网络了。

原则六：可扩展的生成采样（Scalable Rollouts）——工程效率的分水岭

Agent 训练里有一个独特的挑战：生成阶段（Rollout）和训练节点的负载极不平衡。生成阶段需要大量的推理资源，而训练阶段则需要大量的计算资源。业界目前主要有两种架构来应对：一种是分离式架构，把生成和训练在物理上分离开，让它们各自独占 GPU 资源。这样做的好处是两边可以独立扩展，但缺点也很明显——GPU 利用率可能不高，生成阶段会出现等待 I/O 的空闲期。另一种是共置架构，让生成和训练共享同一个 GPU 集群，通过异步调度来实现资源复用。这样能提高硬件利用率，但需要在内存管理和权重同步上做额外的工程优化。

在工程实践层面，字节跳动的 Laminar 框架和 TBA（Trajectory Balance with Asynchrony）等方案代表了最新的进展，它们通过异步解耦，解决了长尾分布生成导致的 GPU 利用率问题。

原则七：稳定性与探索（Stability & Exploration）——打破“回声陷阱”

多轮 Agentic RL 训练面临一个独特的困境，被称作“回声陷阱”（Echo Trap）：智能体过度拟合局部奖励推理模式，具体表现是奖励方差崩溃、策略熵下降，还有梯度尖峰。

为了缓解这个问题，学界提出了多种策略，统称为 StarPO-S（稳定变体），主要包括：基于方差的轨迹过滤——在训练前先把低质量的轨迹筛掉；评估器基线化——通过加入基线来减少方差；解耦裁剪——把不同组件的裁剪范围分开处理。

在探索层面，Agentic RL 需要在“利用已知有效策略”和“探索未知行为空间”之间找到一个微妙的平衡。跟单轮任务不同，智能体任务的探索空间不止是不同措辞，还包括不同的任务分解方式、工具调用顺序、记忆读写策略和停止条件选择。

2.4 第四层：训练策略

原则八：任务课程（Task Curriculum）——像教学生一样教 Agent

渐进式缩放交互框架的设计理念源于课程学习（Curriculum Learning）：从简单任务入手，逐步提升难度，让智能体在已有能力的基础上，渐进式地学习更复杂的技能。

典型的课程设计包含三个层次：较短的视野 h₁，用来训练基础技能任务，交互步数有限，成功概率比较高，目的是建立基线能力；中等视野 h₂，进一步探索任务，增加交互复杂度；较长的视野 h₃，解决复杂任务，需要长程规划和多步推理。

这个设计和字节跳动 Seed 团队提出的 ScalingInter-RL 方法相呼应——通过分阶段增加交互轮次，在训练早期侧重“利用”以求稳定，后期转向“探索”以求突破。

3. 关键算法：PPO 与 GRPO 的战场

Agentic RL 的算法选择，很大程度上决定了训练效率和最终效果。

3.1 PPO：经典但昂贵的“全功能选手”

PPO（Proximal Policy Optimization）是 OpenAI 提出的经典算法，核心机制是通过裁剪目标函数来限制每次策略更新的幅度，防止模型因为单次更新过大而“跑偏”。

PPO 需要同时维护四个模型：策略模型（Policy）——正在训练的核心模型；参考模型（Reference）——用于 KL 散度约束，防止模型偏离原有分布太远；奖励模型（Reward Model）——给模型生成的回答打分；价值模型（Critic）——预测当前状态下未来能获得多少累计奖励，用来计算优势函数。

PPO 的主要优势在于通用性非常强，可以处理各种复杂的任务场景，而且支持 token 级别的优势估计，能很好地适配长短不一的子轨迹。但它的显存开销也很大——Critic 模型跟策略模型一样大，仅仅是用来估计优势函数，却占用了训练显存的 40%-50% 甚至更多。

3.2 GRPO：DeepSeek 带来的“省显存革命”

GRPO（Group Relative Policy Optimization）是 DeepSeek 团队在 2024 年提出的 PPO 极简改进变体，最早用在 DeepSeek-Math 模型上。GRPO 的核心创新非常简洁：彻底扔掉独立的价值网络（Critic），改用“组内相对竞争”来估计优势。它的工作流程只有四步：第一，对同一个输入问题，让策略模型一次性生成多个回答（比如 32 个），组成一个群体；第二，直接打分，把这些回答送入奖励模型，给出每个回答的实际分数；第三，计算群体统计量，算出这组回答分数的均值和标准差；第四，相对归一化，把每个回答的分数和组内均值做比较，得到相对优势值。

这就好比让同一道题的几十个学生同时交卷，互相比较打分，不需要一个全知的阅卷老师。

GRPO 最大的优势是大幅降低了显存需求，在数学推理、代码生成这类有明确验证器的短任务中表现非常出色。但它在长程智能体任务中的短板也很明显——长短不一的子轨迹很难形成可比较的样本组，导致大量训练数据被白白浪费掉。

一个值得关注的最新动态发生在 2026 年 6 月：智谱发布并开源了 GLM-5.2 大模型。在长程强化学习阶段，智谱选择了放弃 GRPO，回归到基于价值网络的 PPO。核心原因在于：GLM-5.2 瞄准的是长程智能体任务（多轮工具调用、子任务拆解、跨轮反馈），执行阶段长短不一。GRPO 要求样本组内长度一致才能公平比较，这个前提在长程 Agent 场景下根本无法满足。智谱的解法是重新引入 Critic，采用 token 级优势值来适配长短不一的子阶段，并通过框架进行配套的工程优化，最终把后训练时间压缩到了大约两天。

这个技术转向释放了一个非常重要的信号：不存在普适的最优算法。算法选择必须和任务特性深度解耦——短程推理任务适合 GRPO，长程 Agent 任务则可能更需要 PPO 的灵活性。

4. 行业应用与工具链一瞥

Agentic RL 的应用版图已经迅速扩展到了多个关键领域：

应用领域	典型任务	代表工作
搜索与研究智能体	Deep Research、多步检索	Search-R1
代码智能体	SWE-bench 代码修复	KAT-Coder-V2、DeepSWE
数学推理	GSM8K、MATH	DeepSeek-R1、QwenLong-L1
GUI 智能体	网页浏览、桌面操作	CRAFT-GUI、OSWorld
具身智能体	机器人控制、家居任务	ALFWorld、SkillRL
多智能体系统	协作规划、竞争博弈	AgentConductor

目前，Agentic RL 已经形成了比较成熟的工具链生态：verl（字节跳动的开源框架），支持 PPO、GRPO、REINFORCE 等多种算法，具备混合流编程抽象和异步执行引擎；Agent Lightning（微软），把 Agent 执行建模为 MDP，实现训练与执行的完全解耦，支持 Text-to-SQL、RAG、数学问答等多种任务；Forge（MiniMax），原生大规模 Agent RL 系统；OpenManus-RL（Ulab-UIUC / MetaGPT），集成了 verl 框架，专注于开源 Agentic RL 训练。

5. 挑战与展望

理论前景虽然广阔，但 Agentic RL 仍然面临着多个尚未完全解决的挑战。第一是训练不稳定性：多轮交互很容易引发梯度爆炸、奖励坍缩之类的“训练崩溃”现象。来自 UCLA 和威斯康星大学麦迪逊分校的 ARLArena 框架，尝试通过控制变量法来系统化地分析这些问题，把策略梯度解构成四个核心维度，就像化学实验一样，定位导致不稳定的“罪魁祸首”。第二是信用分配困难：独立研究者 Chenchen Zhang 在 2026 年 4 月发布的综述中，系统梳理了 2024 到 2026 年初的 47 种信用分配方法，得出的结论很有启发性：代表“推理 RL”的方法地图已经趋于成熟，而代表“Agentic RL”的那半边还几乎是一片空白。第三是系统效率瓶颈：在真实环境中进行 Rollout 的成本很高，异步训练框架还需要持续优化。第四是泛化能力验证：在特定环境中训练出来的智能体，到底能不能迁移到全新的场景，还需要更多实证研究来证明。

6. 小结

Agentic RL 不只是算法层面的改进，它代表了一种训练范式的根本性转变：从单轮静态问答转向多轮动态交互，从偏好对齐转向决策优化，从人工设计 Prompt 转向自主学习策略。随着 Forge、verl、AgentGym-RL 这些成熟框架的陆续出现，再加上 GLM-5.2、MiniMax M2.5 等产品的落地验证，Agentic RL 正在从学术研究稳步走向工业实践。

来源：https://cloud.tencent.com.cn/developer/article/2699680