DeepSeek-R1四个训练阶段详解

时间：2026-05-28 18:34

最近DeepSeek-R1的论文引发了广泛关注，许多人好奇它强大的推理能力究竟是如何锻造出来的。经过仔细研读，我发现其训练流程远比表面看起来精巧，并非一次性的简单微调，而是像层层递进的升级之路，经历了四个紧密相连的阶段。简单来说，这四步遵循的是“先规范，再强化，后扩展，终对齐”的路线，其中包含两个

最近DeepSeek-R1的论文引发了广泛关注，许多人好奇它强大的推理能力究竟是如何锻造出来的。经过仔细研读，我发现其训练流程远比表面看起来精巧，并非一次性的简单微调，而是像层层递进的升级之路，经历了四个紧密相连的阶段。

简单来说，这四步遵循的是“先规范，再强化，后扩展，终对齐”的路线，其中包含两个强化学习（RL）阶段和两个监督微调（SFT）阶段。今天我们就逐一拆解它的训练过程。

DeepSeek-R1的四个训练阶段

第一阶段：冷启动（Cold Start，SFT阶段）

痛点是什么？

直接让基础模型在强化学习的“野生环境”中探索，后果往往难以预料。最常见的问题有两个：一是输出完全失控，答非所问、中英文混杂频繁出现；二是模型根本不理解什么是“人类可读”的推理步骤，思考过程可能杂乱无章、难以理解。

数据从哪来？

既然是建立规则，教材就必须经过人工严格筛选。研发团队准备了数千条高质量的长链思维（CoT）数据。这些数据并非随意获取，而是经过了严格的格式规范和多语言对齐处理，确保模型从一开始就看到的是“标准示例”。

具体怎么做？

这个阶段的核心动作只有一个字：喂。

第一步，收集这些“标准答案”式的冷启动数据。来源包括人工撰写的范例、从上一代模型（DeepSeek-R1-Zero）输出中筛选出的优质结果，并统一用上述标签格式进行规范化。

第二步，**监督微调（SFT）**。即用这数千条高质量数据，对基础模型（DeepSeek-V3-Base）进行一次严格的“入职培训”，确保其输出格式规范、可读性强，为后续高强度训练提供稳定的出发点。

第二阶段：面向推理的强化学习（Reasoning-Oriented RL，RL阶段）

痛点是什么？

冷启动仅解决了“学会表达”的问题，离“能够攻坚”还有很大差距。这一阶段的目标十分明确：将模型的核心推理能力——如解题、编程、科研——推向极致。同时，必须根除第一阶段未完全解决的语言混杂问题，保证思考过程的语言纯净度。

输入模型：上一阶段训练好的检查点（Checkpoint）。

具体怎么做？

这一阶段的精髓在于GRPO算法。可以将它看作一位极其严厉的教练，它不直接给出标准答案，而是通过一套规则奖励机制来“引导”模型自行探索正确的推理路径。例如，答案正确加分，格式规范也加分。更巧妙的是，它引入了语言一致性奖励，比如检测思考过程中中文词汇的比例，鼓励模型维持语言纯净，将语言混杂的坏习惯扼杀在萌芽状态。最终的奖励信号由“解题正确”与“语言纯净”两者相加组成，模型的目标只有一个：争取高分。

第三阶段：拒绝采样与监督微调（Rejection Sampling & SFT，SFT阶段）

痛点是什么？

经过前一轮高强度的推理训练，模型的“理科”能力一骑绝尘，但“文科”能力（如写作、事实问答）可能相对滞后。这一阶段的目标是为它“补课”，扩展其在非推理任务上的通用能力。同时，推理数据虽然数量庞大，但质量参差不齐，需要一次严格的“质量筛选”。

数据从哪来？

数据分为两个来源：

推理数据：从第二阶段训练好的模型中，针对同一个问题生成多个回答。然后采用“拒绝采样”策略，仅保留解题思路正确、答案准确的优质推理轨迹。这部分共收集了约60万条。
非推理数据：直接复用之前DeepSeek-V3的SFT数据集，包含各类写作、翻译、事实问答任务，约20万条。

具体怎么做？

简单来说就是“混合微调”。将60万条优质推理数据与20万条通用非推理数据混合，共计80万条样本，用于对模型进行两轮监督微调。此操作旨在使模型在保持强大推理能力的同时，也能在写作、事实回答等方面表现出色，实现“文武双全”。

第四阶段：全场景强化学习（RL for All Scenarios，RL阶段）

痛点是什么？

能力已然足够，但仍需与人类的使用习惯和价值观“对齐”。换句话说，模型不仅要会解题，还必须确保其回答安全（Harmlessness）和有用（Helpfulness）。无论在开放问答还是长文本阅读理解场景，表现都必须稳定可靠。

输入模型：第三阶段SFT完成后的检查点。

具体怎么做？

这个阶段的RL训练变得更加“智能”。它不再使用单一的评分标准，而是采用多样化的奖励信号：

对于数学、代码等推理任务，继续沿用准确率、格式等规则奖励。
对于写作、问答等通用任务，则引入一个神经奖励模型来评估，该模型经过专门训练，能够分辨哪些回答更符合人类偏好，哪些回答存在潜在风险。

同时，训练数据覆盖了各种场景，从用户日常查询到角色扮演无所不包，帮助模型适应不同需求。这相当于最后一步的“全面体检与优化”，最终打磨出一个既聪明又懂规矩的DeepSeek-R1模型。

总结一下

整个训练流程的逻辑十分清晰，可以看作一条“规范-强化-扩展-对齐”的进化链条：

SFT阶段1（冷启动）：为模型确立规则，学会规范的思考方式。
RL阶段1（推理优化）：专攻核心推理，将能力推向极致。
SFT阶段2（混合数据）：引入通用数据，补齐“文科”短板。
RL阶段2（全场景对齐）：与人类偏好对齐，确保安全、有用。

这套方案的核心创新在于验证了一条新路径：**通过纯粹的强化学习就能激发强大的推理能力**。即使不依赖冷启动SFT（仅看DeepSeek-R1-Zero版本），模型也能自行摸索出方法。再结合冷启动与后续的迭代优化，最终达到了与OpenAI o1系列模型相匹敌的水平。这一方法论对整个AI行业如何训练出更强、更通用的模型，无疑提供了一个极具启发性的范本。

来源：https://cloud.tencent.com.cn/developer/article/2675226

DeepSeek