游乐游手机版
首页/AI热点日报/热点详情

DeepSeek-R1核心技术架构与训练原理及实现机制详解

类型:热点整理2026-06-29
OpenAI的o1系列模型开辟了全新发展方向——通过延长思维链(Chain-of-Thought),在推理环节投入更多计算资源,从而在数学、编程等需要严谨逻辑的任务上实现了重大进步。此前,业界也尝试过基于过程的奖励模型、强化学习、蒙特卡洛树搜索、Beam Search等方法,但都没能在通用推理性能上

OpenAI的o1系列模型开辟了全新发展方向——通过延长思维链(Chain-of-Thought),在推理环节投入更多计算资源,从而在数学、编程等需要严谨逻辑的任务上实现了重大进步。此前,业界也尝试过基于过程的奖励模型、强化学习、蒙特卡洛树搜索、Beam Search等方法,但都没能在通用推理性能上真正达到o1的水平。

DeepSeek-AI这次聚焦于更为大胆的路径:采用纯强化学习(RL)来激发语言模型的推理潜能,并且完全摒弃任何监督数据。他们想探究,大语言模型能否仅靠RL实现自我进化,自主发展出推理能力。基于这一思路,他们推出了两款模型:DeepSeek-R1-Zero和DeepSeek-R1。其中,DeepSeek-R1在推理任务上的表现,已经能够与OpenAI-o1-1217一较高下,具体对比如下图所示。

DeepSeek-R1技术详解

DeepSeek-R1-Zero仅通过强化学习训练,未使用任何监督微调(SFT),但已经展现出令人惊叹的推理实力。不过,它也暴露出一些问题:输出内容的可读性不佳,且语言混杂现象严重。相比之下,DeepSeek-R1在RL之前引入了多阶段训练和冷启动数据,弥补了这些不足,同时进一步强化了推理性能,最终与OpenAI-o1-1217不分伯仲。

DeepSeek-R1-Zero的训练策略详解

DeepSeek-R1-Zero以DeepSeek-V3-Base为基础模型,采用的RL框架是组相对策略优化(GRPO)。这一框架的巧妙之处在于,它通过组评分来估算基准,从而省去了通常需要的、与策略模型同等规模的价值模型。具体而言,针对每个问题,GRPO从旧策略中采样一组输出,然后通过最大化一个目标函数来优化策略模型。

其中的优势函数,是用每组输出对应的奖励组来计算的。而奖励机制本身相当简洁,仅包含两类:

  • 准确性奖励:判断回答是否正确。
  • 格式奖励:强制模型将思维过程置于'think''response'标签之间。

下图展示了DeepSeek-R1-Zero在AIME 2024基准测试上的性能变化轨迹。随着RL训练的持续推进,模型表现稳步提升。最显著的是,AIME 2024上的平均pass@1从初始的15.6%直接跃升至71.0%,已达到与OpenAI-o1-0912相当的水平。这一提升,生动证明了RL算法在优化模型性能方面的强大能力。

那么,RL究竟是如何让模型学会推理的?DeepSeek-R1-Zero的自我进化过程提供了一个直观的答案。直接从基座模型启动RL,可以清晰地观察到模型能力增长的轨迹——没有监督微调阶段的干扰。可以看到,模型的思考时间在整个训练过程中持续改进。这种改进并非外部参数调节的结果,而是模型内部自然涌现的特性。它通过延长测试时计算(生成数百到数千个推理token),逐步获得了处理复杂推理任务的能力。

在自我进化过程中,最引人注目的当属“反思”行为。模型会回头重新审视自己的推理步骤,并尝试其他解题路径。这些行为并非来自任何显式编程,而是模型在与RL环境互动中自发产生的。这种自发性,将DeepSeek-R1-Zero的推理能力推向了新的高度。

DeepSeek-R1-Zero的“顿悟时刻”(aha moment):训练中观察到一个特别有趣的现象——模型在遇到难题时,学会主动分配更多思考时间,重新评估初始方法。这不仅仅是推理能力的增长,更是一个生动的例证:强化学习能催生意料之外、但极具价值的复杂行为。

DeepSeek-R1的训练流程深度解析

DeepSeek-R1-Zero的可读性问题和语言混杂是明显的短板。DeepSeek-R1通过引入少量冷启动数据和多阶段训练,成功解决了这些难题,同时将推理性能再次提升。整个训练流程分为四个阶段:冷启动、面向推理的强化学习、拒绝采样与监督微调、面向全场景的强化学习。

冷启动阶段

与DeepSeek-R1-Zero不同,为了规避RL训练初期不稳定的冷启动阶段,DeepSeek-R1首先收集了数千条长思维链数据,用于微调模型,作为RL的起点。这一策略的好处显而易见:

  • 可读性提升:DeepSeek-R1-Zero的输出常常混乱无序——多语言混杂,缺乏Markdown格式。而冷启动数据设计为每条回复都附带总结,显著提升了可读性。
  • 性能潜力释放:基于人类经验精心设计的冷启动数据,初始性能就直接超越了DeepSeek-R1-Zero。这表明迭代训练策略是更优的路径。

面向推理的强化学习阶段

冷启动微调完成后,进入与DeepSeek-R1-Zero一致的RL训练阶段,专门提升模型在代码、数学、科学、逻辑推理等具有明确答案的任务上的能力。训练中,思维链里经常出现语言混杂(例如使用了多种语言),尤其是在RL提示涉及多种语言时。为限制这一问题,他们引入了语言一致性奖励——计算思维链中目标语言词汇的比例。尽管消融实验显示这种对齐会导致性能轻微下降,但换来了更符合人类偏好的输出。最终,将推理准确性和语言一致性奖励相加,作为总奖励,对微调后的模型进行强化学习,直至推理任务收敛。

拒绝采样与监督微调阶段

面向推理的RL收敛后,使用得到的检查点生成SFT数据,进行下一轮训练。这一阶段不再局限于推理,还加入了写作、角色扮演等通用任务的数据,以增强模型的综合能力。操作流程如下:

  • 推理数据:精心挑选推理提示,通过拒绝采样从RL检查点生成推理轨迹。之前仅收集基于规则奖励可评估的数据,此阶段拓展了范围,部分数据使用了生成式奖励模型(将真实答案和模型预测提交给DeepSeek-V3判断)。此外,过滤掉混合语言、长段落、混乱代码块的思维链。每个提示采样多个回复,仅保留正确答案。最终收集了约60万条推理样本。
  • 非推理数据:涵盖写作、事实问答、自我认知、翻译等,复用了DeepSeek-V3的SFT数据集。对于某些非推理任务,引导模型在回答前生成潜在思维链;但对于简单查询(如“你好”)则不强制CoT。总计约20万条。

使用这80万条样本对DeepSeek-V3-Base进行两轮微调。

面向全场景的强化学习阶段

最后,为让模型更符合人类偏好,又增加了一轮强化学习,目标是提升有用性无害性,同时保持推理能力。具体做法是结合奖励信号和多样化的提示分布进行训练。推理数据沿用DeepSeek-R1-Zero的基于规则奖励,针对数学、代码、逻辑推理;通用数据则使用奖励模型来捕捉复杂场景中的人类偏好。在有用性方面,重点考察生成内容的最终总结部分,确保回答实用且相关;在无害性方面,对整个响应(包括推理过程和总结)进行全面审查,识别并缓解偏见、风险。最终训练出的模型,既保持了顶尖的推理能力,又在有用性和无害性上令人信赖。

蒸馏技术:为小型模型注入推理能力

为了让更小、更高效的模型也能具备DeepSeek-R1级别的推理能力,他们直接将DeepSeek-R1精选的80万条样本用于微调开源模型(Qwen、Llama)。结果简单而有效:蒸馏显著增强了小型模型的推理能力。需要注意的是,蒸馏后的模型仅进行了SFT,未加入RL阶段(引入RL或许能进一步提升,但本次研究的重点是展示蒸馏的有效性)。

以Qwen2.5-32B为基础,直接从DeepSeek-R1蒸馏的效果,甚至超过了在其自身基础上运行RL的效果。这充分说明,大模型发现的推理模式本身,就是提升推理能力的关键资产。

来源:https://www.53ai.com/news/LargeLanguageModel/2025020980679.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。