DeepSeek-R1核心技术架构与训练原理及实现机制详解_AI热点日报

DeepSeek-R1核心技术架构与训练原理及实现机制详解

类型：热点整理2026-06-29

OpenAI的o1系列模型开辟了全新发展方向——通过延长思维链（Chain-of-Thought），在推理环节投入更多计算资源，从而在数学、编程等需要严谨逻辑的任务上实现了重大进步。此前，业界也尝试过基于过程的奖励模型、强化学习、蒙特卡洛树搜索、Beam Search等方法，但都没能在通用推理性能上

OpenAI的o1系列模型开辟了全新发展方向——通过延长思维链（Chain-of-Thought），在推理环节投入更多计算资源，从而在数学、编程等需要严谨逻辑的任务上实现了重大进步。此前，业界也尝试过基于过程的奖励模型、强化学习、蒙特卡洛树搜索、Beam Search等方法，但都没能在通用推理性能上真正达到o1的水平。

DeepSeek-AI这次聚焦于更为大胆的路径：采用纯强化学习（RL）来激发语言模型的推理潜能，并且完全摒弃任何监督数据。他们想探究，大语言模型能否仅靠RL实现自我进化，自主发展出推理能力。基于这一思路，他们推出了两款模型：DeepSeek-R1-Zero和DeepSeek-R1。其中，DeepSeek-R1在推理任务上的表现，已经能够与OpenAI-o1-1217一较高下，具体对比如下图所示。

DeepSeek-R1技术详解

DeepSeek-R1-Zero仅通过强化学习训练，未使用任何监督微调（SFT），但已经展现出令人惊叹的推理实力。不过，它也暴露出一些问题：输出内容的可读性不佳，且语言混杂现象严重。相比之下，DeepSeek-R1在RL之前引入了多阶段训练和冷启动数据，弥补了这些不足，同时进一步强化了推理性能，最终与OpenAI-o1-1217不分伯仲。

DeepSeek-R1-Zero的训练策略详解

DeepSeek-R1-Zero以DeepSeek-V3-Base为基础模型，采用的RL框架是组相对策略优化（GRPO）。这一框架的巧妙之处在于，它通过组评分来估算基准，从而省去了通常需要的、与策略模型同等规模的价值模型。具体而言，针对每个问题，GRPO从旧策略中采样一组输出，然后通过最大化一个目标函数来优化策略模型。

其中的优势函数，是用每组输出对应的奖励组来计算的。而奖励机制本身相当简洁，仅包含两类：

准确性奖励：判断回答是否正确。
格式奖励：强制模型将思维过程置于'think'和'response'标签之间。

下图展示了DeepSeek-R1-Zero在AIME 2024基准测试上的性能变化轨迹。随着RL训练的持续推进，模型表现稳步提升。最显著的是，AIME 2024上的平均pass@1从初始的15.6%直接跃升至71.0%，已达到与OpenAI-o1-0912相当的水平。这一提升，生动证明了RL算法在优化模型性能方面的强大能力。

那么，RL究竟是如何让模型学会推理的？DeepSeek-R1-Zero的自我进化过程提供了一个直观的答案。直接从基座模型启动RL，可以清晰地观察到模型能力增长的轨迹——没有监督微调阶段的干扰。可以看到，模型的思考时间在整个训练过程中持续改进。这种改进并非外部参数调节的结果，而是模型内部自然涌现的特性。它通过延长测试时计算（生成数百到数千个推理token），逐步获得了处理复杂推理任务的能力。

在自我进化过程中，最引人注目的当属“反思”行为。模型会回头重新审视自己的推理步骤，并尝试其他解题路径。这些行为并非来自任何显式编程，而是模型在与RL环境互动中自发产生的。这种自发性，将DeepSeek-R1-Zero的推理能力推向了新的高度。

DeepSeek-R1-Zero的“顿悟时刻”（aha moment）：训练中观察到一个特别有趣的现象——模型在遇到难题时，学会主动分配更多思考时间，重新评估初始方法。这不仅仅是推理能力的增长，更是一个生动的例证：强化学习能催生意料之外、但极具价值的复杂行为。

DeepSeek-R1的训练流程深度解析

DeepSeek-R1-Zero的可读性问题和语言混杂是明显的短板。DeepSeek-R1通过引入少量冷启动数据和多阶段训练，成功解决了这些难题，同时将推理性能再次提升。整个训练流程分为四个阶段：冷启动、面向推理的强化学习、拒绝采样与监督微调、面向全场景的强化学习。

冷启动阶段

与DeepSeek-R1-Zero不同，为了规避RL训练初期不稳定的冷启动阶段，DeepSeek-R1首先收集了数千条长思维链数据，用于微调模型，作为RL的起点。这一策略的好处显而易见：

可读性提升：DeepSeek-R1-Zero的输出常常混乱无序——多语言混杂，缺乏Markdown格式。而冷启动数据设计为每条回复都附带总结，显著提升了可读性。
性能潜力释放：基于人类经验精心设计的冷启动数据，初始性能就直接超越了DeepSeek-R1-Zero。这表明迭代训练策略是更优的路径。

面向推理的强化学习阶段

冷启动微调完成后，进入与DeepSeek-R1-Zero一致的RL训练阶段，专门提升模型在代码、数学、科学、逻辑推理等具有明确答案的任务上的能力。训练中，思维链里经常出现语言混杂（例如使用了多种语言），尤其是在RL提示涉及多种语言时。为限制这一问题，他们引入了语言一致性奖励——计算思维链中目标语言词汇的比例。尽管消融实验显示这种对齐会导致性能轻微下降，但换来了更符合人类偏好的输出。最终，将推理准确性和语言一致性奖励相加，作为总奖励，对微调后的模型进行强化学习，直至推理任务收敛。

拒绝采样与监督微调阶段

面向推理的RL收敛后，使用得到的检查点生成SFT数据，进行下一轮训练。这一阶段不再局限于推理，还加入了写作、角色扮演等通用任务的数据，以增强模型的综合能力。操作流程如下：

推理数据：精心挑选推理提示，通过拒绝采样从RL检查点生成推理轨迹。之前仅收集基于规则奖励可评估的数据，此阶段拓展了范围，部分数据使用了生成式奖励模型（将真实答案和模型预测提交给DeepSeek-V3判断）。此外，过滤掉混合语言、长段落、混乱代码块的思维链。每个提示采样多个回复，仅保留正确答案。最终收集了约60万条推理样本。
非推理数据：涵盖写作、事实问答、自我认知、翻译等，复用了DeepSeek-V3的SFT数据集。对于某些非推理任务，引导模型在回答前生成潜在思维链；但对于简单查询（如“你好”）则不强制CoT。总计约20万条。

使用这80万条样本对DeepSeek-V3-Base进行两轮微调。

面向全场景的强化学习阶段

最后，为让模型更符合人类偏好，又增加了一轮强化学习，目标是提升有用性和无害性，同时保持推理能力。具体做法是结合奖励信号和多样化的提示分布进行训练。推理数据沿用DeepSeek-R1-Zero的基于规则奖励，针对数学、代码、逻辑推理；通用数据则使用奖励模型来捕捉复杂场景中的人类偏好。在有用性方面，重点考察生成内容的最终总结部分，确保回答实用且相关；在无害性方面，对整个响应（包括推理过程和总结）进行全面审查，识别并缓解偏见、风险。最终训练出的模型，既保持了顶尖的推理能力，又在有用性和无害性上令人信赖。

蒸馏技术：为小型模型注入推理能力

为了让更小、更高效的模型也能具备DeepSeek-R1级别的推理能力，他们直接将DeepSeek-R1精选的80万条样本用于微调开源模型（Qwen、Llama）。结果简单而有效：蒸馏显著增强了小型模型的推理能力。需要注意的是，蒸馏后的模型仅进行了SFT，未加入RL阶段（引入RL或许能进一步提升，但本次研究的重点是展示蒸馏的有效性）。

以Qwen2.5-32B为基础，直接从DeepSeek-R1蒸馏的效果，甚至超过了在其自身基础上运行RL的效果。这充分说明，大模型发现的推理模式本身，就是提升推理能力的关键资产。

来源：https://www.53ai.com/news/LargeLanguageModel/2025020980679.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。