游乐游手机版
首页/AI教程/文章详情

DeepSeek-R1四个训练阶段详解

时间:2026-05-28 18:34
最近DeepSeek-R1的论文引发了广泛关注,许多人好奇它强大的推理能力究竟是如何锻造出来的。经过仔细研读,我发现其训练流程远比表面看起来精巧,并非一次性的简单微调,而是像层层递进的升级之路,经历了四个紧密相连的阶段。 简单来说,这四步遵循的是“先规范,再强化,后扩展,终对齐”的路线,其中包含两个

最近DeepSeek-R1的论文引发了广泛关注,许多人好奇它强大的推理能力究竟是如何锻造出来的。经过仔细研读,我发现其训练流程远比表面看起来精巧,并非一次性的简单微调,而是像层层递进的升级之路,经历了四个紧密相连的阶段。

简单来说,这四步遵循的是“先规范,再强化,后扩展,终对齐”的路线,其中包含两个强化学习(RL)阶段和两个监督微调(SFT)阶段。今天我们就逐一拆解它的训练过程。

DeepSeek-R1的四个训练阶段

第一阶段:冷启动(Cold Start,SFT阶段)

痛点是什么?

直接让基础模型在强化学习的“野生环境”中探索,后果往往难以预料。最常见的问题有两个:一是输出完全失控,答非所问、中英文混杂频繁出现;二是模型根本不理解什么是“人类可读”的推理步骤,思考过程可能杂乱无章、难以理解。

数据从哪来?

既然是建立规则,教材就必须经过人工严格筛选。研发团队准备了数千条高质量的长链思维(CoT)数据。这些数据并非随意获取,而是经过了严格的格式规范和多语言对齐处理,确保模型从一开始就看到的是“标准示例”。

具体怎么做?

这个阶段的核心动作只有一个字:

第一步,收集这些“标准答案”式的冷启动数据。来源包括人工撰写的范例、从上一代模型(DeepSeek-R1-Zero)输出中筛选出的优质结果,并统一用上述标签格式进行规范化。

第二步,**监督微调(SFT)**。即用这数千条高质量数据,对基础模型(DeepSeek-V3-Base)进行一次严格的“入职培训”,确保其输出格式规范、可读性强,为后续高强度训练提供稳定的出发点。

第二阶段:面向推理的强化学习(Reasoning-Oriented RL,RL阶段)

痛点是什么?

冷启动仅解决了“学会表达”的问题,离“能够攻坚”还有很大差距。这一阶段的目标十分明确:将模型的核心推理能力——如解题、编程、科研——推向极致。同时,必须根除第一阶段未完全解决的语言混杂问题,保证思考过程的语言纯净度。

输入模型:上一阶段训练好的检查点(Checkpoint)。

具体怎么做?

这一阶段的精髓在于GRPO算法。可以将它看作一位极其严厉的教练,它不直接给出标准答案,而是通过一套规则奖励机制来“引导”模型自行探索正确的推理路径。例如,答案正确加分,格式规范也加分。更巧妙的是,它引入了语言一致性奖励,比如检测思考过程中中文词汇的比例,鼓励模型维持语言纯净,将语言混杂的坏习惯扼杀在萌芽状态。最终的奖励信号由“解题正确”与“语言纯净”两者相加组成,模型的目标只有一个:争取高分。

第三阶段:拒绝采样与监督微调(Rejection Sampling & SFT,SFT阶段)

痛点是什么?

经过前一轮高强度的推理训练,模型的“理科”能力一骑绝尘,但“文科”能力(如写作、事实问答)可能相对滞后。这一阶段的目标是为它“补课”,扩展其在非推理任务上的通用能力。同时,推理数据虽然数量庞大,但质量参差不齐,需要一次严格的“质量筛选”。

数据从哪来?

数据分为两个来源:

  • 推理数据:从第二阶段训练好的模型中,针对同一个问题生成多个回答。然后采用“拒绝采样”策略,仅保留解题思路正确、答案准确的优质推理轨迹。这部分共收集了约60万条。
  • 非推理数据:直接复用之前DeepSeek-V3的SFT数据集,包含各类写作、翻译、事实问答任务,约20万条。

具体怎么做?

简单来说就是“混合微调”。将60万条优质推理数据与20万条通用非推理数据混合,共计80万条样本,用于对模型进行两轮监督微调。此操作旨在使模型在保持强大推理能力的同时,也能在写作、事实回答等方面表现出色,实现“文武双全”。

第四阶段:全场景强化学习(RL for All Scenarios,RL阶段)

痛点是什么?

能力已然足够,但仍需与人类的使用习惯和价值观“对齐”。换句话说,模型不仅要会解题,还必须确保其回答安全(Harmlessness)有用(Helpfulness)。无论在开放问答还是长文本阅读理解场景,表现都必须稳定可靠。

输入模型:第三阶段SFT完成后的检查点。

具体怎么做?

这个阶段的RL训练变得更加“智能”。它不再使用单一的评分标准,而是采用多样化的奖励信号

  • 对于数学、代码等推理任务,继续沿用准确率、格式等规则奖励。
  • 对于写作、问答等通用任务,则引入一个神经奖励模型来评估,该模型经过专门训练,能够分辨哪些回答更符合人类偏好,哪些回答存在潜在风险。

同时,训练数据覆盖了各种场景,从用户日常查询到角色扮演无所不包,帮助模型适应不同需求。这相当于最后一步的“全面体检与优化”,最终打磨出一个既聪明又懂规矩的DeepSeek-R1模型。

总结一下

整个训练流程的逻辑十分清晰,可以看作一条“规范-强化-扩展-对齐”的进化链条:

  • SFT阶段1(冷启动):为模型确立规则,学会规范的思考方式。
  • RL阶段1(推理优化):专攻核心推理,将能力推向极致。
  • SFT阶段2(混合数据):引入通用数据,补齐“文科”短板。
  • RL阶段2(全场景对齐):与人类偏好对齐,确保安全、有用。

这套方案的核心创新在于验证了一条新路径:**通过纯粹的强化学习就能激发强大的推理能力**。即使不依赖冷启动SFT(仅看DeepSeek-R1-Zero版本),模型也能自行摸索出方法。再结合冷启动与后续的迭代优化,最终达到了与OpenAI o1系列模型相匹敌的水平。这一方法论对整个AI行业如何训练出更强、更通用的模型,无疑提供了一个极具启发性的范本。

来源:https://cloud.tencent.com.cn/developer/article/2675226
上一篇WPS AI一键导入PPT生成可编辑专业文档技巧 下一篇腾讯版Hermes Agent发布 快速部署安装即用
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
CapCut AI Docker 一键部署:镜像拉取、端口映射与数据目录配置教程
AI教程 · 2026-06-30

CapCut AI Docker 一键部署:镜像拉取、端口映射与数据目录配置教程

CapCutAI容器化部署需先确认镜像来源与授权范围,再完成环境准备、镜像拉取、端口映射、数据目录挂载和启动验证,适合本地试用、团队内网演示与轻量化AI剪辑服务管理。

CapCut AI Windows本地安装配置2026最新版含下载与环境要求
AI教程 · 2026-06-30

CapCut AI Windows本地安装配置2026最新版含下载与环境要求

CapCutAI与剪映AI在Windows端适合短视频、口播、课程和营销素材剪辑,安装前需确认系统、显卡、存储与网络条件,优先选择官方渠道下载,并完成账号、素材目录、硬件加速和导出参数配置。

Veo新手保姆级安装教程:从下载到首次运行
AI教程 · 2026-06-30

Veo新手保姆级安装教程:从下载到首次运行

Veo适合用文字生成短视频,新手应先确认官方入口、准备账号与设备环境,再按网页或应用方式完成启用。首次运行重点在提示词、参数、素材合规与结果保存,避免使用非官方安装包。

Veo本地模型运行下载路径设置与性能优化指南
AI教程 · 2026-06-30

Veo本地模型运行下载路径设置与性能优化指南

Veo本地模型部署需先确认模型来源与硬件条件,再完成下载校验、目录规划、路径配置和推理参数优化。重点关注显存占用、依赖版本、缓存位置、授权范围与常见报错处理。

Veo安装失败解决指南:常见报错与日志排查及升级回滚方案
AI教程 · 2026-06-30

Veo安装失败解决指南:常见报错与日志排查及升级回滚方案

Veo安装失败通常与系统环境、依赖版本、网络源、权限和缓存有关。排查时应先确认版本要求,再查看安装日志,按报错类型处理,并提前备份项目,确保升级与回滚可控。