DeepSeek核心GRPO算法背后的数学完整深度解析与推导步骤_AI热点日报

DeepSeek核心GRPO算法背后的数学完整深度解析与推导步骤

类型：热点整理2026-06-30

基于群组相对策略优化（GRPO）算法，DeepSeek模型通过比较一组候选回答的相对优劣进行自我评估，无需额外模型，大幅降低计算成本。该机制使DeepSeek在多项推理基准测试中与全球顶尖闭源模型持平，并发展了自我验证、长链思考等高级推理能力。

探索DeepSeek模型取得突破背后的数学智慧与优化算法。

一家中国AI实验室推出的开源模型，在多项推理基准测试中竟然与全球顶尖闭源模型打成平手——这背后究竟隐藏着哪些技术秘密？答案其实凝聚在一个名为GRPO（Group Relative Policy Optimization，群组相对策略优化）的算法中。简单来说，GRPO就像一套高效的自评系统：它帮助DeepSeek模型在一组候选回答中快速锁定最优解。通过横向比较每个答案的相对优劣，模型能清晰感知哪些回答更精准、更符合用户意图，并据此持续调整策略。

更重要的是，这套机制不再需要额外的评估模型，既节省了海量计算资源，又能在实战中不断提升推理能力。下面，我们就来拆解这套方法的核心原理。

一、GRPO 的基础

1. 什么是 GRPO？

群组相对策略优化（GRPO），是一种专为大语言模型推理能力设计的强化学习算法。与传统方法不同，GRPO 不依赖外部评估器来指导学习，而是通过对比一组回答之间的相对优劣来优化模型。这种相对评估机制不仅让训练过程变得简洁，还大幅提高了效率——尤其适合那些需要复杂逻辑推演和长链条思考的任务。

2. 为什么需要 GRPO？

传统的强化学习方法，比如经典的PPO（近端策略优化），在应对语言模型推理任务时，往往会撞上几堵墙：

依赖 Critic 模型

PPO 必须引入一个额外的价值评估模型（critic）来估算每个回答的得分，这让内存和计算开销直接翻倍。
Critic 模型的训练过程本身就很折腾，尤其在涉及主观判断或细微差别时，一不小心就出问题。

高计算成本

RL 训练天然就需要大量计算资源来回评估和优化输出。
当模型规模上升到百亿、千亿参数时，这种成本更是雪上加霜。

可扩展性问题

绝对奖励评估在面对多样化任务时捉襟见肘，导致模型泛化能力受限，很难适应不同的推理场景。

GRPO 如何应对这些挑战？

无需 Critic，降低成本—— GRPO 通过组内回答的比较，彻底甩掉了独立评估器这个包袱，计算资源的需求大幅下降。
相对评估机制——它不纠结于绝对分数，而是通过对比同一组回答的表现来评判质量。模型能更直观地识别“哪个更好”“好在哪里”。
高效训练，易于扩展——把精力集中在计算组内优势上，让奖励估计变得简单直接，进而使训练过程既高效又便于在更大规模模型上铺开。

二、GRPO 的核心理念——相对评估

GRPO 的核心思想，一言以蔽之：相对评估。具体来说：

每个输入进来，模型会生成一组可能的回答。
这些回答不会被单独打分，而是通过相互比较来确定优劣。
奖励机制不再是“这个回答值几分”，而是“这个回答比组内平均水平好多少或差多少”。

这种做法不仅提升了训练效率，更重要的是，组内竞争的压力持续推动模型优化自身的推理能力——这正是 DeepSeek 能在复杂任务中脱颖而出的关键。

三、解读 GRPO 目标函数

在 GRPO 中，目标函数决定了模型如何更新策略，以生成更高质量的回答。我们一起来看看这背后到底是怎么运作的。

1. GRPO 目标函数概览

下面这张图可以帮助我们直观理解 GRPO 目标函数的整体结构。

2. 用简单的方式理解 GRPO 目标函数

可以把 GRPO 的目标函数想象成一份教学指南，指导模型通过对比自己的回答来不断改进。

下面通过一个类比来说明它的工作原理：

目标类比
想象你正在教一群学生解一道数学题。你并不直接告诉他们谁对谁错，而是把所有学生的答案放在一起比较：找出谁做得最好，分析原因，然后通过奖励优秀解法、改进不足之处来帮助大家提升。这正是 GRPO 的工作方式——只不过它教的是 AI 模型，而不是学生。

逐步解析

步骤 1：从查询开始
从训练数据集 P(Q) 中选出一个查询（q）。
例子：假设查询是“8 + 5 的和是多少？”

步骤 2：生成一组回答
模型为该查询生成一组 G 个回答。
例子：模型生成了以下几个回答：

o1：“答案是 13。”
o2：“十三。”
o3：“是 12。”
o4：“和是 13。”

步骤 3：计算每个回答的奖励
奖励是什么？
奖励通过量化回答的质量来引导模型学习。
GRPO 中的奖励类型：

准确性奖励——基于回答的正确性（比如数学题的对错）。
格式奖励——确保回答符合结构规范（比如推理部分是否清晰）。
语言一致性奖励——对语言混杂或格式混乱的回答进行惩罚。

为每个回答分配奖励（ri），根据其好坏。奖励可能取决于：

准确性：答案是否正确？
格式：回答是否结构良好？

示例：

r1 = 1.0（正确且格式良好）。
r2 = 0.9（正确但不够正式）。
r3 = 0.0（错误的回答）。
r4 = 1.0（正确且格式良好）。

步骤 4：比较回答（组内优势）

计算每个回答相对于组的优势（Ai）。

简化版的理解就是：

比组平均值更好的回答得到正分，表现差的回答得到负分。
这种方式促进了组内竞争，推动模型生成更好的回答。

步骤 5：使用剪枝更新策略

示例：如果新策略开始过于偏爱 o1，剪枝操作会及时介入，确保它不会过度强调这个回答。
这样一来，在复杂的推理任务中，策略优化始终能保持稳定和可靠。

步骤 6：使用 KL 散度惩罚偏差

总结 GRPO 目标函数工作流程

为查询生成一组回答
基于准确性、格式等标准计算每个回答的奖励
在组内比较回答，计算每个回答的相对优势（Ai）
更新策略，优先保留优势较高的回答，同时通过剪枝确保更新稳定
通过 KL 正则化，防止模型策略偏离预设基线

四、GRPO 的优势所在

为什么 GRPO 更有效？

无需 Critic
GRPO 通过组内比较取代了独立评估器，计算成本大幅降低。
稳定学习
剪枝与 KL 正则化的结合，保证了模型在更新过程中不会出现剧烈波动。
高效训练
针对推理任务的相对评分机制，让 GRPO 特别适合那些绝对评分难以实现的复杂场景。

现实生活中的类比
设想一群学生在解一道数学题：不是由老师单独评分，而是学生们相互比较答案，优秀者受到鼓励，落后者从错误中学习。随着时间的推移，全班水平逐步提高。这个过程，就是 GRPO 训练 AI 模型的真实写照。

五、GRPO 与 PPO 的比较

下面这张图展示了 GRPO 与传统 PPO 在不同维度上的对比，可以清晰看出 GRPO 在效率、稳定性和可扩展性方面的优势。

六、DeepSeek 的成功实践

通过 GRPO，DeepSeek 在推理任务中交出了一份令人瞩目的成绩单，具体体现在以下几个方面：

增强推理能力
DeepSeek-R1-Zero 在 AIME 2024 中拿到 71.0% 的 Pass@1 分数，通过多数投票进一步提升至 86.7%，在数学与逻辑问题上已能与 OpenAI 等专有模型正面竞争。
新兴高级能力
借助 GRPO，DeepSeek 模型发展出了自我验证、反思、长链思考等高级推理行为——这些都是解决复杂问题的关键武器。
优异的可扩展性
GRPO 采用组内优化，去掉了对评论者模型的需求，大幅降低了计算开销，使得大规模训练变得切实可行。
成功的模型蒸馏
从 GRPO 训练的模型中蒸馏出来的较小模型，依然保留了高水准的推理能力，为 AI 应用的普及和成本控制提供了有力保障。

通过聚焦组内相对表现，GRPO 不仅为 DeepSeek 树立了推理和长文理解的新标杆，同时在效率与可扩展性方面也展现出显著优势。

来源：https://www.53ai.com/news/LargeLanguageModel/2025022346817.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。