DeepSeek-R1训练过程深度拆解解析_AI热点日报

DeepSeek-R1训练过程深度拆解解析

类型：热点整理2026-06-29

昨晚DeepSeek开源了R1模型，直接引爆了中美互联网圈。这事儿不小，来仔细拆解一下。核心要点：R1遵循MIT License，允许蒸馏；上线API并开放思维链输出；在数学、代码、推理等任务上比肩OpenAI o1正式版，小模型甚至超越o1-mini；价格嘛，只有OpenAI的几十分之一。下面

昨晚DeepSeek开源了R1模型，直接引爆了中美互联网圈。这事儿不小，来仔细拆解一下。

核心要点：R1遵循MIT License，允许蒸馏；上线API并开放思维链输出；在数学、代码、推理等任务上比肩OpenAI o1正式版，小模型甚至超越o1-mini；价格嘛，只有OpenAI的几十分之一。

下面从性能、方法、蒸馏、展望几个维度做系统拆解，所有数据和图表均源自论文《R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。

结论前置

先划重点：除了R1，DeepSeek还发布了R1-Zero。R1-Zero基于DeepSeek-V3-Base，纯强化学习训练，没有监督微调；R1则在R1-Zero基础上，先用少量人工标注的高质量数据做冷启动微调，再进行强化学习。

几个关键发现：

纯强化学习确实能打。R1-Zero证明了仅靠强化学习、不需要监督微调，大模型也能有强大的推理能力。在AIME 2024上，R1-Zero的pass@1从15.6%飙到71.0%，用投票策略后更是达到86.7%，跟OpenAI-o1-0912打平（表2，第7页）。
训练过程中间出现了“顿悟”现象。模型能自发学会新的、更有效的推理策略——这事本身就值得重视。
蒸馏比小型模型直接做强化学习更有效。用R1的推理能力去蒸馏Qwen和Llama系列的小模型，效果远好过直接在这些小模型上跑强化学习（表5，第14页）。比如R1-Distill-Qwen-7B在AIME 2024上得分55.5%，远超QwQ-32B-Preview；R1-Distill-Qwen-32B更是干到72.6%。这说明大模型在强化学习中学到的推理模式是可以迁移的。
冷启动数据确实有价值。R1相比R1-Zero，只加了少量高质量冷启动数据，就大幅提升了强化学习的效率和最终性能。

性能评估

论文在多个维度做了评估，覆盖知识密集型、推理密集型、长文本理解和开放式问答任务。对比基线包括DeepSeek-V3、Claude-3.5-Sonnet-1022、GPT-4o-0513、OpenAI-o1-mini和OpenAI-o1-1217。

结合表格4来看，结论很清晰：

R1在推理任务上表现突出，AIME 2024、MATH-500、Codeforces等任务上跟OpenAI-o1-1217打得有来有回，部分还超越。
知识密集型任务中，MMLU（90.8%）、MMLU-Pro（84.0%）、GPQA Diamond（71.5%）都显著超过DeepSeek-V3。
长上下文理解上，FRAMES数据集准确率82.5%，优于DeepSeek-V3。
开放式问答方面，AlpacaEval 2.0上LC-winrate 87.6%，Arena-Hard上GPT-4-1106评分92.3%。

训练流程

R1-Zero

纯粹的强化学习路线，没有监督微调数据，直接在DeepSeek-V3-Base上应用GRPO算法。奖励机制用了基于规则的方式，包括准确性奖励和格式奖励。训练模板很简洁：要求模型先输出推理过程（放在特定标签内），再给最终答案。

训练过程中间出现了“顿悟”现象。表3（第9页）展示了一个经典案例：模型在解数学题时突然意识到可以“重新评估”之前的步骤，换新思路解题。

性能上，R1-Zero在AIME 2024上的pass@1从最初的15.6%稳步提升到71.0%，跟OpenAI-o1-0912持平（图2，第7页）。在AIME 2024、MATH-500、GPQA Diamond等任务上也都能跟OpenAI-o1-0912掰手腕，部分任务还有明显领先（表2，第7页）。

R1

在DeepSeek-V3-Base上先做冷启动微调，再跑强化学习。这套思路结合了监督学习和强化学习的优势。

冷启动阶段用了数千个高质量人工标注样本。为了构建这批数据，团队尝试了几种方法：用带长思维链的few-shot提示、直接提示模型生成带反思和验证的详细解答、收集R1-Zero的输出做人工标注和格式化。

冷启动之后，R1进入面向推理的强化学习阶段，流程跟R1-Zero类似但做了优化。训练中引入了语言一致性奖励，根据思维链中目标语言单词的比例来计算，解决语言混杂问题。

当推理强化学习收敛后，R1用训练好的RL模型做拒绝采样，生成新的监督微调数据。这一阶段的数据不光有推理任务，还覆盖写作、角色扮演、问答等，目的是提升通用能力。

最后进入面向全场景的强化学习阶段，训练目标覆盖所有类型任务，针对不同任务用不同的奖励信号和提示分布。数学、代码、逻辑推理用基于规则的奖励，开放式问答、创意写作用基于模型的奖励。

核心方法

GRPO

R1采用的核心算法是Group Relative Policy Optimization，配合精心设计的奖励机制。跟传统需要构建Critic模型来估计状态值函数的算法不同，GRPO通过比较一组样本的奖励来估计优势函数，降低训练复杂度和计算资源。算法细节看论文2.2.1章节（第5页）。

奖励系统

R1-Zero的奖励系统分两类：准确性奖励，用于评估响应是否正确——确定性答案的任务（如数学题）自动验证，代码任务（如LeetCode）用编译器测试；格式奖励，强制模型把推理过程放在特定标签里。

训练模板

R1-Zero的模板很简洁（表1，第6页）：要求模型先输出推理过程，再给最终答案。训练时把具体的推理问题替换到模板里。

模型蒸馏

DeepSeek团队进一步探索了蒸馏路线。他们用R1生成的800K数据，微调了Qwen和Llama系列多个小模型。结果（表5，第14页）很能说明问题：

经过R1蒸馏的小模型，推理能力提升显著，甚至超过直接在小模型上做强化学习。R1-Distill-Qwen-7B在AIME 2024上得分55.5%，远超QwQ-32B-Preview。
R1-Distill-Qwen-32B在AIME 2024上得分72.6%，MATH-500上94.3%，LiveCodeBench上57.2%，显著优于之前的开源模型，跟o1-mini相当。

表6（第14页）直接对比了R1-Distill-Qwen-32B和R1-Zero-Qwen-32B。直接在Qwen-32B-Base上做强化学习只能跟QwQ-32B-Preview打平，但经R1蒸馏的版本远超两者。这说明R1学到的推理模式通用性和可迁移性都很强。

还有更多

论文最后讨论了R1的局限性和未来方向。

局限性方面：通用能力（函数调用、多轮对话、复杂角色扮演、JSON输出）仍落后于DeepSeek-V3；处理非中英文问题时可能出现语言混杂；对提示词敏感，few-shot提示可能降低性能；软件工程任务上提升有限，因为强化学习的评估周期较长。

未来工作包括：探索用长思维链提升通用能力、解决语言混杂问题、优化提示词策略、把强化学习应用到软件工程任务、继续探索更有效的强化学习算法和奖励机制、研究如何把推理能力更好地落地到科学研究、代码生成、药物研发等实际场景。

额外的

团队也尝试了其他方法但效果不理想：Process Reward Model的构建和训练挑战大，容易导致奖励“hack”；Monte Carlo Tree Search在token生成任务中面临搜索空间过大的问题，value model训练也比较困难。

来源：https://www.53ai.com/news/OpenSourceLLM/2025020473158.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。