首页 游戏 软件 资讯 排行榜 专题
首页
手机教程
OpenAI没做到,DeepSeek搞定了!开源引爆推理革命

OpenAI没做到,DeepSeek搞定了!开源引爆推理革命

热心网友
39
转载
2025-07-03
OpenAI没做到,DeepSeek搞定了!开源引爆推理革命
新智元报道

编辑:kinghz

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

【新智元导读】100多天前,DeepSeek-R1凭借低训练成本,名噪一时。而强化学习算法GRPO,是背后最大的功臣之一。然而,开源界对强化学习算法的探索并没有终结。

DeepSeek-R1引爆了LLM推理革命。

至今,过去一百多天了,引发了持续复制DeepSeek-R1的热潮。

DeepSeek-R1的秘籍在于强化学习微调算法:群体相对策略优化(Group Relative Policy Optimization,GRPO)。

未来,LLM的训练将不再是单纯的数据训练,而是将推理能力作为标准流程。

那为什么强化学习能提高LLM的推理能力?

DeepSeek-R1的GRPO,有哪些身前身后事?

在后DeepSeek-R1时代,GRPO又引发了哪些奇思妙想?

OpenAI没做到,DeepSeek搞定了!开源引爆推理革命
什么是推理模型?

首先要面对的核心问题是:什么是推理?

简单来说,推理是一种通过推导和训练手段,使大语言模型(LLMs)更擅长处理复杂任务的能力。

技术一点的说法是:

推理是指LLM在给出最终答案之前,能先生成一系列中间步骤的能力。

这个过程通常被称为「思维链」(Chain-of-Thought,简称CoT)推理。

在CoT推理中,模型会显式地生成一系列结构化的陈述或计算步骤,来说明它是如何得出结论的。

下图展示了这一定义及其示意。

OpenAI没做到,DeepSeek搞定了!开源引爆推理革命

大语言模型(LLM)处理多步骤推理任务示意图

在多步骤推理任务,与直接回忆某个事实不同,推理模型需要结合多个中间推理步骤,才能得出正确的结论。

这些中间推理步骤是否展示给用户,取决于具体的实现方式。

OpenAI没做到,DeepSeek搞定了!开源引爆推理革命

LLM强化学习黑话小抄

RLHF基础:一切的起点

用于构建和优化推理模型的强化学习(RL)训练方法,基本上都与人类反馈强化学习(RLHF)有关——

这也是目前用来开发和对齐传统大语言模型(LLMs)的主流手段。

因此,在深入讨论基于强化学习的推理优化方法之前,我们先简要回顾一RLHF是如何工作的。

传统LLM的三阶段训练流程:

预训练(Pre-training):使用大规模语料让模型学习通用语言模式和知识。监督微调(Supervised Fine-tuning):用人工标注的任务数据进一步训练模型,让AI更擅长完成具体任务。对齐阶段(Alignment,通常通过RLHF):让模型更符合人类偏好,提升交互体验与安全性。

RLHF训练流程会从预训练模型开始,然后通过监督学习进行微调。

这一步还不属于强化学习,而是为后续的RL打下基础的前置步骤。

接下来,RLHF会使用强化学习算法,进一步对LLM进行对齐。

这是本文的重点。

整个RLHF流程分为三大步骤:

RLHF第一步(前置步骤):监督微调预训练模型

这一步的目标是通过人工标注的数据对模型进行有监督学习,构建一个适合后续RLHF微调的基础模型

RLHF第二步:构建奖励模型(Reward Model)

收集多个回答并让人类标注哪一个更好,以此训练一个模型,能够根据输出内容给出高或低的「奖励分数」。

RLHF第三步:强化学习微调

使用奖励模型的评分结果作为奖励信号,利用PPO等算法更新语言模型的策略,使其输出更符合人类偏好。

RLHF第一步要创建或从已有数据集中采样一批提示语(prompts),然后由人类标注者为这些提示语编写高质量的参考回答。

接着,我们使用这些人工标注的数据对预训练语言模型进行监督微调(SFT)。

正如前面提到的,这一步并不属于强化学习,而是作为后续RLHF微调的前置准备。

OpenAI没做到,DeepSeek搞定了!开源引爆推理革命

RLHF第二步将第一步微调后的模型用于构建一个奖励模型(Reward Model)。如下图所示:

OpenAI没做到,DeepSeek搞定了!开源引爆推理革命

我们让人类对多个模型生成的回答进行排序,然后用这些排序数据来训练奖励模型,让它能根据回答的质量输出相应的评分。

这个奖励模型将在接下来的强化学习微调中,作为模型行为的评估依据。

RLHF第三步(也是最后一步)使用在第二步中训练好的奖励模型,为模型生成的回答打分,然后基于这些评分,使用近端策略优化(PPO)等算法对SFT模型进行强化学习微调。

这是强化学习发挥作用的地方。

通过强化学习,模型会逐步调整其输出策略,使其更倾向于生成高奖励(即更符合人类偏好)的回答,从而实现真正的人类反馈对齐训练。

OpenAI没做到,DeepSeek搞定了!开源引爆推理革命
OpenAI的PPO

一开始,RLHF采用的是近端策略优化PPO。

PPO在架构中使用了四个不同的语言模型:

一个策略模型(正在训练的模型)、

一个参考模型(原始模型的冻结副本)、

一个奖励模型(基于人类偏好进行训练)

和一个值模型(估计长期奖励)。

这些模型都包含需要反向传播来优化的可训练参数,这消耗大量的GPU内存和计算周期,使得训练过程变得笨重且昂贵。

监督学习能够快速定义损失函数,且通常无需大量超参数调整。整个过程直观、稳定、可控。

但在强化学习中,成功的路径就不那么明确了:

强化学习算法往往包含许多相互依赖的模块,调试困难。

而且要想获得良好结果,通常需要投入大量的精力进行调参和结构调整。

这也是PPO被广泛采用的原因之一——

它在实现简便性、样本效率和调参难度之间取得了较好的平衡。

PPO的核心思想是:

在每一步中计算一次策略更新,既能最小化代价函数,又能确保新策略与旧策略之间的偏差不会过大。

OpenAI提出了全新目标函数,增强了PPO算法的稳定性和实用性。

其主要公式如下:

OpenAI没做到,DeepSeek搞定了!开源引爆推理革命

其中:

(q,a)是数据分布D中的一个问答对。πθ表示新策略模型输出的概率。行为策略πθold表示旧策略模型的输出概率。πθ/πθold是重要性采样比(importance ratio),主要用于确保新旧模型的分布不会相差太大。ε是用于裁剪重要性比值的参数,用来限制模型分布的变化,防止变化过大或过小。^A_t是优势函数(advantage function),主要来源于奖励模型和价值模型的评分。R_l是奖励模型的评分。V是价值模型的评分。
OpenAI没做到,DeepSeek搞定了!开源引爆推理革命

图1:在RL训练过程中,应用Clip-Higher策略前后,AIME测试集上的准确率和演员模型生成概率的熵对比

图1展示了在使用与不使用裁剪参数的情况下,模型在AIME数据集上的表现和生成的熵值对比;可以明显看到,加入裁剪参数后,模型性能和熵值都有显著提升。

DeepSeek的GRPO

传统PPO训练方法往往代价高昂,需要消耗大量GPU计算时数,导致训练成本居高不下,实际应用门槛远超个人开发者和小型研究团队的承受范围。 突破性进展来自DeepSeek。

他们推出了PPO算法的改进「平替版本」GRPO:

在提升数学推理能力的同时,显著优化了PPO的内存使用效率。

OpenAI没做到,DeepSeek搞定了!开源引爆推理革命

DeepSeek-R1训练流程

创新的核心动机在于提升计算效率。

OpenAI没做到,DeepSeek搞定了!开源引爆推理革命

该效率提升主要通过以下方式实现:

剔除「评论家」(价值模型):即传统用于计算价值函数(预期未来收益)的大语言模型组件

采用相对质量评估:通过对策略模型本身生成的多组答案进行质量对比,直接计算优势函数,取代传统依赖额外模型估算奖励的方法

这一创新显著降低了训练推理模型的计算需求,即使是「GPU资源匮乏」的团队,也能开发出复杂的推理能力。

OpenAI没做到,DeepSeek搞定了!开源引爆推理革命

其公式如下:

OpenAI没做到,DeepSeek搞定了!开源引爆推理革命

GRPO的主要变化包括:

每个提示语(prompt)采样多次形成一个组,然后使用该组中奖励值的标准化结果作为优势值。引入KL散度作为正则项,对策略变化加以限制。由于GRPO主要用于数学或逻辑推理类问题,它使用的奖励模型也是基于规则的。例如:
OpenAI没做到,DeepSeek搞定了!开源引爆推理革命

其中,y是标准答案,y^是预测答案。

GRPO的开源升级版:DAPO然而,当前顶尖推理型大模型的关键技术细节(如OpenAI的o1技术博客和DeepSeek-R1技术报告中的内容)仍处于黑箱状态,导致学术界难以复现他们强化学习训练成果。

于是,开源的解耦裁剪与动态采样策略优化(Decoupled Clip and Dynamic sAmpling Policy Optimization,DAPO)问世了。

DAPO为每个与答案a配对的问题q采样一组输,并通过以下目标函数优化策略:

OpenAI没做到,DeepSeek搞定了!开源引爆推理革命

DAPO包含以下几个关键技术点:

Clip-Higher(高限裁剪):提升系统多样性,避免熵崩溃。在策略梯度损失中提高重要性采样比率(importance sampling ratio)的上裁剪限值,以缓解该问题。Dynamic Sampling(动态采样):提升训练效率与稳定性。动态采样策略可以过滤掉准确率为1或0的提示组(prompt groups),并在各批次中保持有效梯度提示的数量一致。Token-level Policy Gradient Loss(Token级策略梯度损失):在长链思维推理(long-CoT)强化学习场景中至关重要。Overlong Reward Shaping(过长奖励重塑):降低奖励噪声,稳定训练过程。

高限裁剪

从前面的公式可以看出,对于裁剪参数,DAPO同时引入了「低裁剪」ε_{low}和「高裁剪」ε_{high}两个界限。

这是因为:

高裁剪限制模型的探索能力,避免模型过度增加低概率token的概率,从而控制生成多样性;低裁剪确保高概率token的概率不会骤降,保持模型输出的稳定性。

低概率token的更新空间远小于高概率token。

此外,DAPO的实验中发现,被裁剪的token的最大输出概率通常小于0.2。

这也证明了高裁剪限制了低概率token概率的提升,进而抑制了模型的多样性。如图2所示:

OpenAI没做到,DeepSeek搞定了!开源引爆推理革命

图2:最大裁剪概率

高低双裁剪的策略如下:

ε_{low}:用于限制高概率token概率的下降,防止其概率骤减,通常设置得较小;ε_{high}:用于限制低概率token概率的增加,允许更多探索空间,通常设置得较大。

在DAPO中,有ε_{low}当A>0(即奖励为正)时,裁剪上限为(1+ε_{high}),较大的ε_{high}可避免低概率token被过早裁剪,允许其更新;当A

动态采样

在当前强化学习算法中,同一个prompt需要采样多次形成一个group。

如果该组内所有采样结果的正确率都是1(即奖励全为正)或全为0(即奖励全为负),那么该组的优势值hat{A}为0,导致无法产生有效的梯度更新,降低了样本效率。

如下图3所示,随着训练进行,有效样本在batch中的占比逐渐下降:

OpenAI没做到,DeepSeek搞定了!开源引爆推理革命

图3:准确率为1的样本比例

为了解决这个问题,DAPO引入了动态采样机制:

在训练前,过滤掉奖励全为0或全为1的group;保证每个batch中的样本都能产生有效梯度,同时维持batch的大小一致;随着训练步数增加,模型准确率提高,被过滤的样本也随之增多,因此虽然训练速度不一定加快,但样本效率更高,有助于模型更快收敛。

Token级策略梯度损失

在原始的GRPO中,损失是基于样本整体计算的。这种做法可能导致长文本中的token学习效果较差。

例如:

长输出样本的token损失为:
OpenAI没做到,DeepSeek搞定了!开源引爆推理革命
短输出样本的token损失为:
OpenAI没做到,DeepSeek搞定了!开源引爆推理革命

计算总损失L_{long}+L_{short}时,虽然平均了,但因为N₁>N₂,导致长样本的学习权重被稀释。

此外,实验也发现长内容容易生成无意义token,应该给予更多关注。

因此DAPO将损失改为每个token直接参与计算,总损失形式如下:

OpenAI没做到,DeepSeek搞定了!开源引爆推理革命

上述例子中的损失形式也相应变为:

OpenAI没做到,DeepSeek搞定了!开源引爆推理革命

过长奖励重塑

在大语言模型(LLMs)训练中,通常会设置max_token限制生成长度,超过这个长度的样本会被截断。

如果对这些截断样本的奖励设计不合理,可能会引入奖励噪声,干扰训练。

过去的方法通常会对这些样本进行惩罚,但这可能导致本应合理的长答案被错误惩罚。

为此,DAPO引入了惩罚过渡区间,其奖励设计如下:

OpenAI没做到,DeepSeek搞定了!开源引爆推理革命
设定L_{cache}为缓冲区;L_{max}为最大长度;|y|为当前生成文本的长度。

当∣y∣+Lcache≤Lmax时,文本长度小于最大允许长度max_token,因此不施加惩罚。

当∣y∣+Lcache>Lmax且∣y∣

当∣y∣≥Lmax时,施加最大惩罚。

图4展示了在基准设置下,使用动态采样前后的训练进度变化。

OpenAI没做到,DeepSeek搞定了!开源引爆推理革命

图4:在基准设置下,应用动态采样前后的训练进度对比

自我反思与回溯能力的出现

在DAPO的训练过程中,研究人员还观察到了模型具有「反思」和「回溯」的能力,而这类能力在原始数据集中并未出现。

这与DeepSeekR1报告中的发现一致。

虽然目前还不清楚这一能力产生的根本原因,但它为未来的优化提供了新的方向。

图5展示了强化学习中「反思行为」的涌现现象。

OpenAI没做到,DeepSeek搞定了!开源引爆推理革命

图5:强化学习中反思行为的出现

参考资料:

https://pub.towardsai.net/the-evolution-of-grpo-dapo-d96000d0d81f

https://openai.com/index/openai-baselines-ppo/

https://www.k-a.in/grpo.html

https://magazine.sebastianraschka.com/p/the-state-of-llm-reasoning-model-training

https://arxiv.org/pdf/2503.14476

来源:https://www.php.cn/faq/1385052.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Solidus Ai Tech(AITECH)币是什么?怎么样?AITECH工作原理和代币经济学概述
web3.0
Solidus Ai Tech(AITECH)币是什么?怎么样?AITECH工作原理和代币经济学概述

Solidus AI 是什么 在AI与Web3加速融合的当下,一个名为Solidus AI的项目提出了自己的解决方案。它将自己定位为“Web3原生的AI HPC基础设施”,其蓝图相当清晰:以位于欧洲的环保高性能计算(HPC)数据中心为基石,向上构建一个计算与AI工具市场,并最终通过AITECH代币完

热心网友
04.03
Cardano(ADA)2026 年价格预测:Grok AI 分析与未来走势
web3.0
Cardano(ADA)2026 年价格预测:Grok AI 分析与未来走势

Cardano (ADA) 2026年价格预测:AI深度解析与增长路径 在瞬息万变的加密市场,人工智能分析正成为洞察未来趋势的关键工具。近期,由Grok AI模型发布的Cardano(ADA)2026年价格预测引发了广泛关注,其大胆展望ADA或有望触及两位数美元价格。这不仅彰显了AI数据分析的潜力,

热心网友
04.02
京东发起全民养虾计划 整合AI硬件与服务降低门槛
科技数码
京东发起全民养虾计划 整合AI硬件与服务降低门槛

京东“全民养虾计划”:开启AI助手体验新纪元 科技领域近期迎来一场别开生面的创新活动:京东正式推出“全民养虾计划”。表面看,它与美食相关,实际上是一场针对AI智能体技术普及的宏大实验。该计划通过“购买AI硬件、赠送专业安装服务与趣味小龙虾”的组合策略,为当前热门的开源AI智能体——OpenClaw,

热心网友
04.02
一波资本从以太坊(ETH)流出,进入TRON [TRX]
web3.0
一波资本从以太坊(ETH)流出,进入TRON [TRX]

以太坊资本外溢:TRON为何成为15 2亿美元稳定币新枢纽? 区块链世界的地壳运动从未停止,资本的流向便是其中最敏锐的震感。近期,一场规模惊人的资本迁徙正在上演:大量资金正从以太坊网络流出,涌入TRON生态。这不仅是简单的资产转移,更是一次深刻的行业风向标,揭示了用户对交易成本、网络效率与应用场景的

热心网友
04.02
自研第一个SKILL-openclaw入门
AI
自研第一个SKILL-openclaw入门

自研第一个SKILL:手把手教你开发openclaw自定义技能 当你成功构建好openclaw之后,如何让它真正“智能”起来?关键在于为其开发SKILL——这些技能是openclaw的“内功心法”,决定了它能帮你做什么、做多好。 本文将带你亲自动手,从零开始开发你的第一个openclaw自定义技能,

热心网友
04.02

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

2025年9月 ADA 价格预测:Cardano 最终能否突破 1 美元大关?
web3.0
2025年9月 ADA 价格预测:Cardano 最终能否突破 1 美元大关?

```html 2025年9月ADA将剑指何方?一文读懂Cardano突破1美元的关键战役 2025年9月,加密市场的目光再次聚焦于Cardano及其原生代币ADA。随着价格在0 80美元关键支撑位附近盘整,一个核心议题浮出水面:ADA能否借助生态里程碑与宏观转向的东风,在本月一举攻克并站稳1美元大

热心网友
04.03
如何在币安交易所进行挖矿?如何通过币安的矿池挖矿?
web3.0
如何在币安交易所进行挖矿?如何通过币安的矿池挖矿?

什么是币安矿池?全面解读主流矿池的核心优势 当人们谈论加密货币挖矿时,脑海中浮现的往往是巨大的矿机和轰鸣的机房。然而,一个更具效率与稳定性的选择正成为全球矿工的新宠——币安矿池。作为全球领先的加密货币交易所币安旗下的核心服务之一,币安矿池本质上是一个聚合全球算力的去中心化矿池平台。它允许矿工将个人算

热心网友
04.03
《洛克王国:世界》灵魂环印使用攻略
游戏攻略
《洛克王国:世界》灵魂环印使用攻略

《洛克王国:世界》灵魂环印使用攻略 灵魂环印是《洛克王国:世界》中提升魔法师耐力的核心道具,千万别舍不得使用。它能为你的角色快速“充电”,显著增强魔法师的续航能力。耐力属性直接影响实战中的操作流畅度与技能释放频率,无论是PVP竞技还是挑战高难度BOSS,充足的耐力条都能带来截然不同的游戏体验。使用灵

热心网友
04.03
OK交易所鲨鱼鳍:低风险却有稳定收益?保本型产品不怕市场波动
web3.0
OK交易所鲨鱼鳍:低风险却有稳定收益?保本型产品不怕市场波动

OKX鲨鱼鳍:一款兼顾本金安全与潜在高收益的结构化理财产品 在加密货币理财的世界里,你是否也常纠结于如何在控制风险的同时,追求比普通活期、定期更高的收益?OKX交易所推出的“鲨鱼鳍”结构化产品,或许提供了一个巧妙的解决方案。 简单来说,这是一款保本型理财产品。你只需选定一个币种,并对其未来1到7天的

热心网友
04.03
萤火夜话角色有哪些-萤火夜话角色详情介绍
游戏资讯
萤火夜话角色有哪些-萤火夜话角色详情介绍

角色一:小萤 谈及机动性与灵活走位,小萤无疑是游戏中的顶尖代表。其核心优势在于无与伦比的战场穿梭能力,得益于独特的轻盈步伐,闪避各类攻击对她而言游刃有余。她的标志性技能“微光闪烁”,可提供短时爆发性移速加成,无论是用于切入战场先手开团,还是关键时刻脱离险境,都能起到决定性作用。 精通小萤的关键,在于

热心网友
04.03