游乐游手机版
首页/AI热点日报/热点详情

DeepSeek核心GRPO算法背后的数学完整深度解析与推导步骤

类型:热点整理2026-06-30
基于群组相对策略优化(GRPO)算法,DeepSeek模型通过比较一组候选回答的相对优劣进行自我评估,无需额外模型,大幅降低计算成本。该机制使DeepSeek在多项推理基准测试中与全球顶尖闭源模型持平,并发展了自我验证、长链思考等高级推理能力。

探索DeepSeek模型取得突破背后的数学智慧与优化算法。

一家中国AI实验室推出的开源模型,在多项推理基准测试中竟然与全球顶尖闭源模型打成平手——这背后究竟隐藏着哪些技术秘密?答案其实凝聚在一个名为GRPO(Group Relative Policy Optimization,群组相对策略优化)的算法中。简单来说,GRPO就像一套高效的自评系统:它帮助DeepSeek模型在一组候选回答中快速锁定最优解。通过横向比较每个答案的相对优劣,模型能清晰感知哪些回答更精准、更符合用户意图,并据此持续调整策略。

更重要的是,这套机制不再需要额外的评估模型,既节省了海量计算资源,又能在实战中不断提升推理能力。下面,我们就来拆解这套方法的核心原理。

一、GRPO 的基础

1. 什么是 GRPO?

群组相对策略优化(GRPO),是一种专为大语言模型推理能力设计的强化学习算法。与传统方法不同,GRPO 不依赖外部评估器来指导学习,而是通过对比一组回答之间的相对优劣来优化模型。这种相对评估机制不仅让训练过程变得简洁,还大幅提高了效率——尤其适合那些需要复杂逻辑推演和长链条思考的任务。

2. 为什么需要 GRPO?

传统的强化学习方法,比如经典的PPO(近端策略优化),在应对语言模型推理任务时,往往会撞上几堵墙:

依赖 Critic 模型

  • PPO 必须引入一个额外的价值评估模型(critic)来估算每个回答的得分,这让内存和计算开销直接翻倍。
  • Critic 模型的训练过程本身就很折腾,尤其在涉及主观判断或细微差别时,一不小心就出问题。

高计算成本

  • RL 训练天然就需要大量计算资源来回评估和优化输出。
  • 当模型规模上升到百亿、千亿参数时,这种成本更是雪上加霜。

可扩展性问题

  • 绝对奖励评估在面对多样化任务时捉襟见肘,导致模型泛化能力受限,很难适应不同的推理场景。

GRPO 如何应对这些挑战?

  1. 无需 Critic,降低成本—— GRPO 通过组内回答的比较,彻底甩掉了独立评估器这个包袱,计算资源的需求大幅下降。
  2. 相对评估机制——它不纠结于绝对分数,而是通过对比同一组回答的表现来评判质量。模型能更直观地识别“哪个更好”“好在哪里”。
  3. 高效训练,易于扩展——把精力集中在计算组内优势上,让奖励估计变得简单直接,进而使训练过程既高效又便于在更大规模模型上铺开。

二、GRPO 的核心理念——相对评估

GRPO 的核心思想,一言以蔽之:相对评估。具体来说:

  • 每个输入进来,模型会生成一组可能的回答。
  • 这些回答不会被单独打分,而是通过相互比较来确定优劣。
  • 奖励机制不再是“这个回答值几分”,而是“这个回答比组内平均水平好多少或差多少”。

这种做法不仅提升了训练效率,更重要的是,组内竞争的压力持续推动模型优化自身的推理能力——这正是 DeepSeek 能在复杂任务中脱颖而出的关键。

三、解读 GRPO 目标函数

在 GRPO 中,目标函数决定了模型如何更新策略,以生成更高质量的回答。我们一起来看看这背后到底是怎么运作的。

1. GRPO 目标函数概览

下面这张图可以帮助我们直观理解 GRPO 目标函数的整体结构。

2. 用简单的方式理解 GRPO 目标函数

可以把 GRPO 的目标函数想象成一份教学指南,指导模型通过对比自己的回答来不断改进。

下面通过一个类比来说明它的工作原理:

目标类比
想象你正在教一群学生解一道数学题。你并不直接告诉他们谁对谁错,而是把所有学生的答案放在一起比较:找出谁做得最好,分析原因,然后通过奖励优秀解法、改进不足之处来帮助大家提升。这正是 GRPO 的工作方式——只不过它教的是 AI 模型,而不是学生。

逐步解析

步骤 1:从查询开始
从训练数据集 P(Q) 中选出一个查询(q)。
例子:假设查询是“8 + 5 的和是多少?”

步骤 2:生成一组回答
模型为该查询生成一组 G 个回答。
例子:模型生成了以下几个回答:

  • o1:“答案是 13。”
  • o2:“十三。”
  • o3:“是 12。”
  • o4:“和是 13。”

步骤 3:计算每个回答的奖励
奖励是什么?
奖励通过量化回答的质量来引导模型学习。
GRPO 中的奖励类型:

  1. 准确性奖励——基于回答的正确性(比如数学题的对错)。
  2. 格式奖励——确保回答符合结构规范(比如推理部分是否清晰)。
  3. 语言一致性奖励——对语言混杂或格式混乱的回答进行惩罚。

为每个回答分配奖励(ri),根据其好坏。奖励可能取决于:

  • 准确性:答案是否正确?
  • 格式:回答是否结构良好?

示例:

  • r1 = 1.0(正确且格式良好)。
  • r2 = 0.9(正确但不够正式)。
  • r3 = 0.0(错误的回答)。
  • r4 = 1.0(正确且格式良好)。

步骤 4:比较回答(组内优势)

  • 计算每个回答相对于组的优势(Ai)。

简化版的理解就是:

  • 比组平均值更好的回答得到正分,表现差的回答得到负分。
  • 这种方式促进了组内竞争,推动模型生成更好的回答。

步骤 5:使用剪枝更新策略

  • 示例:如果新策略开始过于偏爱 o1,剪枝操作会及时介入,确保它不会过度强调这个回答。
  • 这样一来,在复杂的推理任务中,策略优化始终能保持稳定和可靠。

步骤 6:使用 KL 散度惩罚偏差

总结 GRPO 目标函数工作流程

  1. 为查询生成一组回答
  2. 基于准确性、格式等标准计算每个回答的奖励
  3. 在组内比较回答,计算每个回答的相对优势(Ai)
  4. 更新策略,优先保留优势较高的回答,同时通过剪枝确保更新稳定
  5. 通过 KL 正则化,防止模型策略偏离预设基线

四、GRPO 的优势所在

为什么 GRPO 更有效?

  • 无需 Critic
    GRPO 通过组内比较取代了独立评估器,计算成本大幅降低。
  • 稳定学习
    剪枝与 KL 正则化的结合,保证了模型在更新过程中不会出现剧烈波动。
  • 高效训练
    针对推理任务的相对评分机制,让 GRPO 特别适合那些绝对评分难以实现的复杂场景。

现实生活中的类比
设想一群学生在解一道数学题:不是由老师单独评分,而是学生们相互比较答案,优秀者受到鼓励,落后者从错误中学习。随着时间的推移,全班水平逐步提高。这个过程,就是 GRPO 训练 AI 模型的真实写照。

五、GRPO 与 PPO 的比较

下面这张图展示了 GRPO 与传统 PPO 在不同维度上的对比,可以清晰看出 GRPO 在效率、稳定性和可扩展性方面的优势。

六、DeepSeek 的成功实践

通过 GRPO,DeepSeek 在推理任务中交出了一份令人瞩目的成绩单,具体体现在以下几个方面:

  • 增强推理能力
    DeepSeek-R1-Zero 在 AIME 2024 中拿到 71.0% 的 Pass@1 分数,通过多数投票进一步提升至 86.7%,在数学与逻辑问题上已能与 OpenAI 等专有模型正面竞争。
  • 新兴高级能力
    借助 GRPO,DeepSeek 模型发展出了自我验证、反思、长链思考等高级推理行为——这些都是解决复杂问题的关键武器。
  • 优异的可扩展性
    GRPO 采用组内优化,去掉了对评论者模型的需求,大幅降低了计算开销,使得大规模训练变得切实可行。
  • 成功的模型蒸馏
    从 GRPO 训练的模型中蒸馏出来的较小模型,依然保留了高水准的推理能力,为 AI 应用的普及和成本控制提供了有力保障。

通过聚焦组内相对表现,GRPO 不仅为 DeepSeek 树立了推理和长文理解的新标杆,同时在效率与可扩展性方面也展现出显著优势。

来源:https://www.53ai.com/news/LargeLanguageModel/2025022346817.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。