探索DeepSeek模型取得突破背后的数学智慧与优化算法。
一家中国AI实验室推出的开源模型,在多项推理基准测试中竟然与全球顶尖闭源模型打成平手——这背后究竟隐藏着哪些技术秘密?答案其实凝聚在一个名为GRPO(Group Relative Policy Optimization,群组相对策略优化)的算法中。简单来说,GRPO就像一套高效的自评系统:它帮助DeepSeek模型在一组候选回答中快速锁定最优解。通过横向比较每个答案的相对优劣,模型能清晰感知哪些回答更精准、更符合用户意图,并据此持续调整策略。
更重要的是,这套机制不再需要额外的评估模型,既节省了海量计算资源,又能在实战中不断提升推理能力。下面,我们就来拆解这套方法的核心原理。
一、GRPO 的基础
1. 什么是 GRPO?
群组相对策略优化(GRPO),是一种专为大语言模型推理能力设计的强化学习算法。与传统方法不同,GRPO 不依赖外部评估器来指导学习,而是通过对比一组回答之间的相对优劣来优化模型。这种相对评估机制不仅让训练过程变得简洁,还大幅提高了效率——尤其适合那些需要复杂逻辑推演和长链条思考的任务。
2. 为什么需要 GRPO?
传统的强化学习方法,比如经典的PPO(近端策略优化),在应对语言模型推理任务时,往往会撞上几堵墙:
依赖 Critic 模型
- PPO 必须引入一个额外的价值评估模型(critic)来估算每个回答的得分,这让内存和计算开销直接翻倍。
- Critic 模型的训练过程本身就很折腾,尤其在涉及主观判断或细微差别时,一不小心就出问题。
高计算成本
- RL 训练天然就需要大量计算资源来回评估和优化输出。
- 当模型规模上升到百亿、千亿参数时,这种成本更是雪上加霜。
可扩展性问题
- 绝对奖励评估在面对多样化任务时捉襟见肘,导致模型泛化能力受限,很难适应不同的推理场景。
GRPO 如何应对这些挑战?
- 无需 Critic,降低成本—— GRPO 通过组内回答的比较,彻底甩掉了独立评估器这个包袱,计算资源的需求大幅下降。
- 相对评估机制——它不纠结于绝对分数,而是通过对比同一组回答的表现来评判质量。模型能更直观地识别“哪个更好”“好在哪里”。
- 高效训练,易于扩展——把精力集中在计算组内优势上,让奖励估计变得简单直接,进而使训练过程既高效又便于在更大规模模型上铺开。
二、GRPO 的核心理念——相对评估
GRPO 的核心思想,一言以蔽之:相对评估。具体来说:
- 每个输入进来,模型会生成一组可能的回答。
- 这些回答不会被单独打分,而是通过相互比较来确定优劣。
- 奖励机制不再是“这个回答值几分”,而是“这个回答比组内平均水平好多少或差多少”。
这种做法不仅提升了训练效率,更重要的是,组内竞争的压力持续推动模型优化自身的推理能力——这正是 DeepSeek 能在复杂任务中脱颖而出的关键。
三、解读 GRPO 目标函数
在 GRPO 中,目标函数决定了模型如何更新策略,以生成更高质量的回答。我们一起来看看这背后到底是怎么运作的。
1. GRPO 目标函数概览
下面这张图可以帮助我们直观理解 GRPO 目标函数的整体结构。

2. 用简单的方式理解 GRPO 目标函数
可以把 GRPO 的目标函数想象成一份教学指南,指导模型通过对比自己的回答来不断改进。
下面通过一个类比来说明它的工作原理:
目标类比
想象你正在教一群学生解一道数学题。你并不直接告诉他们谁对谁错,而是把所有学生的答案放在一起比较:找出谁做得最好,分析原因,然后通过奖励优秀解法、改进不足之处来帮助大家提升。这正是 GRPO 的工作方式——只不过它教的是 AI 模型,而不是学生。
逐步解析
步骤 1:从查询开始
从训练数据集 P(Q) 中选出一个查询(q)。
例子:假设查询是“8 + 5 的和是多少?”
步骤 2:生成一组回答
模型为该查询生成一组 G 个回答。
例子:模型生成了以下几个回答:
- o1:“答案是 13。”
- o2:“十三。”
- o3:“是 12。”
- o4:“和是 13。”
步骤 3:计算每个回答的奖励
奖励是什么?
奖励通过量化回答的质量来引导模型学习。
GRPO 中的奖励类型:
- 准确性奖励——基于回答的正确性(比如数学题的对错)。
- 格式奖励——确保回答符合结构规范(比如推理部分是否清晰)。
- 语言一致性奖励——对语言混杂或格式混乱的回答进行惩罚。
为每个回答分配奖励(ri),根据其好坏。奖励可能取决于:
- 准确性:答案是否正确?
- 格式:回答是否结构良好?
示例:
- r1 = 1.0(正确且格式良好)。
- r2 = 0.9(正确但不够正式)。
- r3 = 0.0(错误的回答)。
- r4 = 1.0(正确且格式良好)。
步骤 4:比较回答(组内优势)
- 计算每个回答相对于组的优势(Ai)。

简化版的理解就是:
- 比组平均值更好的回答得到正分,表现差的回答得到负分。
- 这种方式促进了组内竞争,推动模型生成更好的回答。
步骤 5:使用剪枝更新策略

- 示例:如果新策略开始过于偏爱 o1,剪枝操作会及时介入,确保它不会过度强调这个回答。
- 这样一来,在复杂的推理任务中,策略优化始终能保持稳定和可靠。
步骤 6:使用 KL 散度惩罚偏差

总结 GRPO 目标函数工作流程
- 为查询生成一组回答
- 基于准确性、格式等标准计算每个回答的奖励
- 在组内比较回答,计算每个回答的相对优势(Ai)
- 更新策略,优先保留优势较高的回答,同时通过剪枝确保更新稳定
- 通过 KL 正则化,防止模型策略偏离预设基线
四、GRPO 的优势所在
为什么 GRPO 更有效?
- 无需 Critic
GRPO 通过组内比较取代了独立评估器,计算成本大幅降低。 - 稳定学习
剪枝与 KL 正则化的结合,保证了模型在更新过程中不会出现剧烈波动。 - 高效训练
针对推理任务的相对评分机制,让 GRPO 特别适合那些绝对评分难以实现的复杂场景。
现实生活中的类比
设想一群学生在解一道数学题:不是由老师单独评分,而是学生们相互比较答案,优秀者受到鼓励,落后者从错误中学习。随着时间的推移,全班水平逐步提高。这个过程,就是 GRPO 训练 AI 模型的真实写照。
五、GRPO 与 PPO 的比较
下面这张图展示了 GRPO 与传统 PPO 在不同维度上的对比,可以清晰看出 GRPO 在效率、稳定性和可扩展性方面的优势。
六、DeepSeek 的成功实践

通过 GRPO,DeepSeek 在推理任务中交出了一份令人瞩目的成绩单,具体体现在以下几个方面:
- 增强推理能力
DeepSeek-R1-Zero 在 AIME 2024 中拿到 71.0% 的 Pass@1 分数,通过多数投票进一步提升至 86.7%,在数学与逻辑问题上已能与 OpenAI 等专有模型正面竞争。 - 新兴高级能力
借助 GRPO,DeepSeek 模型发展出了自我验证、反思、长链思考等高级推理行为——这些都是解决复杂问题的关键武器。 - 优异的可扩展性
GRPO 采用组内优化,去掉了对评论者模型的需求,大幅降低了计算开销,使得大规模训练变得切实可行。 - 成功的模型蒸馏
从 GRPO 训练的模型中蒸馏出来的较小模型,依然保留了高水准的推理能力,为 AI 应用的普及和成本控制提供了有力保障。
通过聚焦组内相对表现,GRPO 不仅为 DeepSeek 树立了推理和长文理解的新标杆,同时在效率与可扩展性方面也展现出显著优势。
