GRPO：大模型强化学习的新范式_AI热词解释_游乐网

GRPO：大模型强化学习的新范式

类型：AI 算法2026-06-01

GRPO（Group Relative Policy Optimization）是一种用于训练大语言模型的强化学习算法，通过对比同一问题下多个回答的相对优劣来更新策略，无需依赖独立的评论模型，显著降低算力消耗。它被用于 DeepSeek-R1 等推理模型，是当前开源社区关注的热点。

本次查询：GRPO

中文解释：群体相对策略优化

常见场景：大语言模型的强化学习训练 / 尤其在数学推理 / 代码生成等需要链式思维的场景中替代传统 PPO

GRPO 是一种改进的强化学习算法，它通过将当前生成的一组回答与同一问题下的其他回答进行相对比较来更新模型参数，而不是依赖一个独立的“评论家”网络给出绝对值分数。

传统 PPO 需要额外训练一个价值网络来评估状态，占用大量显存和计算资源。GRPO 摒弃了这一结构，仅利用模型自身生成的多个候选回答之间的相对优劣关系进行学习，训练显存可降低 40% 以上。

DeepSeek-R1 使用 GRPO 实现了不依赖标注数据就能增强模型推理能力的效果，引发了社区对“无评论家强化学习”技术路线的广泛讨论。许多开发者发现 GRPO 在数学和逻辑任务上收敛更快，生成结果更稳定。

GRPO 的核心思想是：对于同一个 prompt，让策略模型生成一组回答（例如 G 个），然后用奖励模型或规则打分。算法不直接优化单个回答的绝对分数，而是将组内所有回答的分数归一化，计算每个回答的相对优势。

更新时，模型倾向于增加得分高于组内平均的回答的概率，降低低于平均的回答的概率，并用 KL 散度约束避免与参考策略偏离太远。这种方式天然降低了梯度方差，也省去了 PPO 中价值网络的拟合误差。

在数学推理任务中，GRPO 让模型生成多个解题步骤，利用最终答案正确性作为奖励信号，组内对比能快速筛选出连模型自己都“不清楚”但偶然写对的路径，从而提升泛化能力。

代码生成场景里，GRPO 可以批量生成数个候选代码，运行测试用例得到通过率作为奖励，通过组内相对排名指导模型写出更简洁、更鲁棒的代码。

开源社区目前常用 GRPO 结合 LoRA 对 7B-70B 模型进行后训练，在单卡 A100-80G 上即可完成对数学竞赛题的强化训练，成本远低于传统 PPO。

GRPO 名称中的“Group”并不代表多智能体协作，而是指“同一 prompt 下生成的一组回答”。它仍是单模型自举式强化学习，不要与群体智能或多智能体强化学习混淆。

容易与 DPO（Direct Preference Optimization）混淆：DPO 直接用偏好对进行离线训练，不需要实时采样；而 GRPO 是 online 采样+组内对比，需要持续生成回答并打分，更适合需要探索新策略的场景。

有些人误以为 GRPO 完全不需要奖励模型，实际上它仍然需要奖励信号（可以是人工规则或外部模型），只是不需要 PPO 中那个同时预测状态价值的附加网络，所以显存更低。

来源：AI 热词解释频道整理

GRPO 强化学习大模型训练 DPO 推理模型