最近DeepSeek-R1的论文引发了广泛关注,许多人好奇它强大的推理能力究竟是如何锻造出来的。经过仔细研读,我发现其训练流程远比表面看起来精巧,并非一次性的简单微调,而是像层层递进的升级之路,经历了四个紧密相连的阶段。
简单来说,这四步遵循的是“先规范,再强化,后扩展,终对齐”的路线,其中包含两个强化学习(RL)阶段和两个监督微调(SFT)阶段。今天我们就逐一拆解它的训练过程。

第一阶段:冷启动(Cold Start,SFT阶段)
痛点是什么?
直接让基础模型在强化学习的“野生环境”中探索,后果往往难以预料。最常见的问题有两个:一是输出完全失控,答非所问、中英文混杂频繁出现;二是模型根本不理解什么是“人类可读”的推理步骤,思考过程可能杂乱无章、难以理解。
数据从哪来?
既然是建立规则,教材就必须经过人工严格筛选。研发团队准备了数千条高质量的长链思维(CoT)数据。这些数据并非随意获取,而是经过了严格的格式规范和多语言对齐处理,确保模型从一开始就看到的是“标准示例”。
具体怎么做?
这个阶段的核心动作只有一个字:喂。
第一步,收集这些“标准答案”式的冷启动数据。来源包括人工撰写的范例、从上一代模型(DeepSeek-R1-Zero)输出中筛选出的优质结果,并统一用上述标签格式进行规范化。
第二步,**监督微调(SFT)**。即用这数千条高质量数据,对基础模型(DeepSeek-V3-Base)进行一次严格的“入职培训”,确保其输出格式规范、可读性强,为后续高强度训练提供稳定的出发点。
第二阶段:面向推理的强化学习(Reasoning-Oriented RL,RL阶段)
痛点是什么?
冷启动仅解决了“学会表达”的问题,离“能够攻坚”还有很大差距。这一阶段的目标十分明确:将模型的核心推理能力——如解题、编程、科研——推向极致。同时,必须根除第一阶段未完全解决的语言混杂问题,保证思考过程的语言纯净度。
输入模型:上一阶段训练好的检查点(Checkpoint)。
具体怎么做?
这一阶段的精髓在于GRPO算法。可以将它看作一位极其严厉的教练,它不直接给出标准答案,而是通过一套规则奖励机制来“引导”模型自行探索正确的推理路径。例如,答案正确加分,格式规范也加分。更巧妙的是,它引入了语言一致性奖励,比如检测思考过程中中文词汇的比例,鼓励模型维持语言纯净,将语言混杂的坏习惯扼杀在萌芽状态。最终的奖励信号由“解题正确”与“语言纯净”两者相加组成,模型的目标只有一个:争取高分。
第三阶段:拒绝采样与监督微调(Rejection Sampling & SFT,SFT阶段)
痛点是什么?
经过前一轮高强度的推理训练,模型的“理科”能力一骑绝尘,但“文科”能力(如写作、事实问答)可能相对滞后。这一阶段的目标是为它“补课”,扩展其在非推理任务上的通用能力。同时,推理数据虽然数量庞大,但质量参差不齐,需要一次严格的“质量筛选”。
数据从哪来?
数据分为两个来源:
- 推理数据:从第二阶段训练好的模型中,针对同一个问题生成多个回答。然后采用“拒绝采样”策略,仅保留解题思路正确、答案准确的优质推理轨迹。这部分共收集了约60万条。
- 非推理数据:直接复用之前DeepSeek-V3的SFT数据集,包含各类写作、翻译、事实问答任务,约20万条。
具体怎么做?
简单来说就是“混合微调”。将60万条优质推理数据与20万条通用非推理数据混合,共计80万条样本,用于对模型进行两轮监督微调。此操作旨在使模型在保持强大推理能力的同时,也能在写作、事实回答等方面表现出色,实现“文武双全”。
第四阶段:全场景强化学习(RL for All Scenarios,RL阶段)
痛点是什么?
能力已然足够,但仍需与人类的使用习惯和价值观“对齐”。换句话说,模型不仅要会解题,还必须确保其回答安全(Harmlessness)和有用(Helpfulness)。无论在开放问答还是长文本阅读理解场景,表现都必须稳定可靠。
输入模型:第三阶段SFT完成后的检查点。
具体怎么做?
这个阶段的RL训练变得更加“智能”。它不再使用单一的评分标准,而是采用多样化的奖励信号:
- 对于数学、代码等推理任务,继续沿用准确率、格式等规则奖励。
- 对于写作、问答等通用任务,则引入一个神经奖励模型来评估,该模型经过专门训练,能够分辨哪些回答更符合人类偏好,哪些回答存在潜在风险。
同时,训练数据覆盖了各种场景,从用户日常查询到角色扮演无所不包,帮助模型适应不同需求。这相当于最后一步的“全面体检与优化”,最终打磨出一个既聪明又懂规矩的DeepSeek-R1模型。
总结一下
整个训练流程的逻辑十分清晰,可以看作一条“规范-强化-扩展-对齐”的进化链条:
- SFT阶段1(冷启动):为模型确立规则,学会规范的思考方式。
- RL阶段1(推理优化):专攻核心推理,将能力推向极致。
- SFT阶段2(混合数据):引入通用数据,补齐“文科”短板。
- RL阶段2(全场景对齐):与人类偏好对齐,确保安全、有用。
这套方案的核心创新在于验证了一条新路径:**通过纯粹的强化学习就能激发强大的推理能力**。即使不依赖冷启动SFT(仅看DeepSeek-R1-Zero版本),模型也能自行摸索出方法。再结合冷启动与后续的迭代优化,最终达到了与OpenAI o1系列模型相匹敌的水平。这一方法论对整个AI行业如何训练出更强、更通用的模型,无疑提供了一个极具启发性的范本。
