DeepSeek-R1四个训练阶段详解
最近DeepSeek-R1的论文引发了广泛关注,许多人好奇它强大的推理能力究竟是如何锻造出来的。经过仔细研读,我发现其训练流程远比表面看起来精巧,并非一次性的简单微调,而是像层层递进的升级之路,经历了四个紧密相连的阶段。
简单来说,这四步遵循的是“先规范,再强化,后扩展,终对齐”的路线,其中包含两个强化学习(RL)阶段和两个监督微调(SFT)阶段。今天我们就逐一拆解它的训练过程。

第一阶段:冷启动(Cold Start,SFT阶段)
痛点是什么?
直接让基础模型在强化学习的“野生环境”中探索,后果往往难以预料。最常见的问题有两个:一是输出完全失控,答非所问、中英文混杂频繁出现;二是模型根本不理解什么是“人类可读”的推理步骤,思考过程可能杂乱无章、难以理解。
数据从哪来?
既然是建立规则,教材就必须经过人工严格筛选。研发团队准备了数千条高质量的长链思维(CoT)数据。这些数据并非随意获取,而是经过了严格的格式规范和多语言对齐处理,确保模型从一开始就看到的是“标准示例”。
具体怎么做?
这个阶段的核心动作只有一个字:喂。
第一步,收集这些“标准答案”式的冷启动数据。来源包括人工撰写的范例、从上一代模型(DeepSeek-R1-Zero)输出中筛选出的优质结果,并统一用上述标签格式进行规范化。
第二步,**监督微调(SFT)**。即用这数千条高质量数据,对基础模型(DeepSeek-V3-Base)进行一次严格的“入职培训”,确保其输出格式规范、可读性强,为后续高强度训练提供稳定的出发点。
第二阶段:面向推理的强化学习(Reasoning-Oriented RL,RL阶段)
痛点是什么?
冷启动仅解决了“学会表达”的问题,离“能够攻坚”还有很大差距。这一阶段的目标十分明确:将模型的核心推理能力——如解题、编程、科研——推向极致。同时,必须根除第一阶段未完全解决的语言混杂问题,保证思考过程的语言纯净度。
输入模型:上一阶段训练好的检查点(Checkpoint)。
具体怎么做?
这一阶段的精髓在于GRPO算法。可以将它看作一位极其严厉的教练,它不直接给出标准答案,而是通过一套规则奖励机制来“引导”模型自行探索正确的推理路径。例如,答案正确加分,格式规范也加分。更巧妙的是,它引入了语言一致性奖励,比如检测思考过程中中文词汇的比例,鼓励模型维持语言纯净,将语言混杂的坏习惯扼杀在萌芽状态。最终的奖励信号由“解题正确”与“语言纯净”两者相加组成,模型的目标只有一个:争取高分。
第三阶段:拒绝采样与监督微调(Rejection Sampling & SFT,SFT阶段)
痛点是什么?
经过前一轮高强度的推理训练,模型的“理科”能力一骑绝尘,但“文科”能力(如写作、事实问答)可能相对滞后。这一阶段的目标是为它“补课”,扩展其在非推理任务上的通用能力。同时,推理数据虽然数量庞大,但质量参差不齐,需要一次严格的“质量筛选”。
数据从哪来?
数据分为两个来源:
- 推理数据:从第二阶段训练好的模型中,针对同一个问题生成多个回答。然后采用“拒绝采样”策略,仅保留解题思路正确、答案准确的优质推理轨迹。这部分共收集了约60万条。
- 非推理数据:直接复用之前DeepSeek-V3的SFT数据集,包含各类写作、翻译、事实问答任务,约20万条。
具体怎么做?
简单来说就是“混合微调”。将60万条优质推理数据与20万条通用非推理数据混合,共计80万条样本,用于对模型进行两轮监督微调。此操作旨在使模型在保持强大推理能力的同时,也能在写作、事实回答等方面表现出色,实现“文武双全”。
第四阶段:全场景强化学习(RL for All Scenarios,RL阶段)
痛点是什么?
能力已然足够,但仍需与人类的使用习惯和价值观“对齐”。换句话说,模型不仅要会解题,还必须确保其回答安全(Harmlessness)和有用(Helpfulness)。无论在开放问答还是长文本阅读理解场景,表现都必须稳定可靠。
输入模型:第三阶段SFT完成后的检查点。
具体怎么做?
这个阶段的RL训练变得更加“智能”。它不再使用单一的评分标准,而是采用多样化的奖励信号:
- 对于数学、代码等推理任务,继续沿用准确率、格式等规则奖励。
- 对于写作、问答等通用任务,则引入一个神经奖励模型来评估,该模型经过专门训练,能够分辨哪些回答更符合人类偏好,哪些回答存在潜在风险。
同时,训练数据覆盖了各种场景,从用户日常查询到角色扮演无所不包,帮助模型适应不同需求。这相当于最后一步的“全面体检与优化”,最终打磨出一个既聪明又懂规矩的DeepSeek-R1模型。
总结一下
整个训练流程的逻辑十分清晰,可以看作一条“规范-强化-扩展-对齐”的进化链条:
- SFT阶段1(冷启动):为模型确立规则,学会规范的思考方式。
- RL阶段1(推理优化):专攻核心推理,将能力推向极致。
- SFT阶段2(混合数据):引入通用数据,补齐“文科”短板。
- RL阶段2(全场景对齐):与人类偏好对齐,确保安全、有用。
这套方案的核心创新在于验证了一条新路径:**通过纯粹的强化学习就能激发强大的推理能力**。即使不依赖冷启动SFT(仅看DeepSeek-R1-Zero版本),模型也能自行摸索出方法。再结合冷启动与后续的迭代优化,最终达到了与OpenAI o1系列模型相匹敌的水平。这一方法论对整个AI行业如何训练出更强、更通用的模型,无疑提供了一个极具启发性的范本。
相关攻略
实测阿里Qwen3 7Max在编程竞技榜全球第二,超越GPT-5 5等模型。前端网页设计与六宫格2048游戏测试中,其表现优于前代,但不及ClaudeOpus4 7和Gemini3 5Flash。接入Codex后能力提升,但存在工具调用不稳定问题,提示词质量对发挥模型能力至关重要。
深度求索服务今日上午出现部分中断,波及网页端和应用程序接口。官方于十点二十一分定位问题,十点五十分修复,持续约半小时。这已是二〇二六年五月第五次服务波动,其中两次达完全中断级别。
春节期间,AI领域的DeepSeek成为各大社交平台和科技媒体的热议焦点。从公司背景、创始团队到其创新的模型架构设计,引发了行业内的广泛讨论。许多专业人士和自媒体都在积极测试它的实际应用能力。 那么,对于广大普通用户——无论是职场人士、在校学生,还是需要兼顾家庭的父母——DeepSeek这款AI工具
Redis创始人Antirez开源了ds4项目,用纯C代码将DeepSeekV4Flash模型在128GBM3MaxMacBook上跑通,支持1M上下文。项目采用不对称2-bit量化压缩大部分参数,关键路径保持全精度,并将KVCache扩展至SSD,利用硬件特性降低内存需求。该定制化方案实现了可接受的性能与质量平衡,适合代理任务等特定场景。
DeepSeek研究员陈德里利用智能体协作,在约2小时人类投入下于6天内完成一篇46页论文。论文提出了研究智能体L1-L5自主分级体系,分析了四种主流架构及其适用场景,对比了17个现有系统。研究指出当前前沿已达L4受限自主水平,但迈向完全自主的L5仍需克服持续知识积累、可靠自我评估等核心瓶颈,并明确了。
热门专题
热门推荐
《Paralives》开发商承诺所有后续更新永久免费,拒绝付费DLC模式。15人小团队依靠首发销售额即可支撑多年运营,无需依赖额外内容包维持开发,展现了与《模拟人生》系列不同的差异化竞争思路。
2025年5月28日,比亚迪王朝网全新力作——宋Ultra DM-i正式推向市场,共推出5款配置车型,官方售价区间为12 99万至15 99万元。此次定价策略极具突破性:一款拥有310公里纯电续航能力的中型插电混动SUV,直接下探至13万元级别市场。作为王朝网络的新旗舰,该车明确瞄准高频出行需求场景
先来关注一个有趣的细节:苹果首款折叠屏手机,传闻将于今年秋季正式亮相。产品命名可能为iPhone Ultra,也有媒体称之为iPhone Fold——无论最终叫什么,这都将标志着苹果在折叠形态领域首次“出手”。 近日,配件厂商iFunSmart已率先上架iPhone Ultra的首批保护壳——这绝非
山寨币ETF迎来批量上市潮,首批项目市场表现如何?一文分析 Binance币安 欧易OKX ️ Huobi火币️ 最近,市场出现了一个不容忽视的新动向:XRP、DOGE、LTC、HBAR等现货ETF已经悄然登陆美国市场。与此同时,A VAX、LINK等资产的同类产品也正在审批流程中。进入11月以来,
近日,公司对SteamDeck1TBOLED版涨价300美元至949美元,上架短短不到24小时便再度售罄。据外界分析,该公司从中国大量补货并分批投放库存,高溢价未影响众多玩家的抢购热情与速度,其人气极其旺盛无比足以支撑快速清空。





