万字长文彻底详解DeepSeek-R1模型工作原理与核心机制_AI热点日报

DeepSeek-R1的问世，可以说是把整个科技圈给炸开了锅。它一口气冲到了苹果应用商店中美两区的免费榜首，把ChatGPT甩在了身后，更夸张的是，芯片巨头英伟达的市值一天之内蒸发掉近6000亿美元，创下美股新纪录。这背后，是一套完全不按常理出牌的技术路线——第一代推理模型DeepSeek-R1-Zero，居然靠纯强化学习（RL）训练，连监督微调（SFT）都没用，就展现出了惊人的推理能力。当然，初期版本也有硬伤：可读性差、语言混杂。于是DeepSeek团队进一步推出了DeepSeek-R1，在RL前加入了多阶段训练和冷启动数据，最终让推理能力达到了与OpenAI-o1-1217同级的水准。

万字长文详解DeepSeek-R1模型工作原理

和OpenAI的闭门造车不同，DeepSeek把整个开发过程公开了，连技术论文都发了出来，方便其他团队复现。这种开放做法，相当于打开了模型的“黑盒”，全球的研究人员都能钻进去看内部机制，然后用到自己的任务里。下面这篇深度解读，基于DeepSeek官方论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》，尽可能把核心原理讲明白，给业界同行提供点参考。论文原文链接在这里：https://arxiv.org/pdf/2501.12948

01 引言

后训练（post-training）如今已经成为大模型完整流程里的关键一环。研究已经证明，这一阶段能在推理任务上提升准确性，同时让模型更符合社会价值观和用户偏好，而且消耗的计算资源比预训练少得多。说起推理能力，OpenAI的o1系列率先通过CoT长度引入了“推断时扩展”（inference-time scaling），在数学、编程、科学推理这类任务上成绩斐然。但话说回来，有效的测试时扩展（test-time scaling）依然是个开放难题，研究界还没完全攻克。

之前有些探索：基于过程的奖励模型、强化学习、蒙特卡罗树搜索、束搜索……方法不少，可始终没一个能达到o1系列在通用推理上的水平。DeepSeek的第一次尝试，就是直接用纯强化学习来提升推理能力，想看看大语言模型在完全没有监督数据的情况下，能不能自己发展出推理能力，核心关注点就是这种“自我演化”。

具体做法：以DeepSeek-V3-Base为基础模型，采用GRPO强化学习框架来提升推理性能。训练过程中，DeepSeek-R1-Zero自然涌现出了很多强大又有趣的推理行为。经过几千步强化学习后，它在AIME 2024基准测试中的pass@1得分从15.6%飙到了71.0%，再用多数投票法一提升，直接到86.7%，追上了OpenAI-o1-0912的水平。

不过，DeepSeek-R1-Zero的可读性差、语言混杂的问题也摆在那里。为了解决这些，同时进一步提升推理性能，团队又推出了DeepSeek-R1——在强化学习之前，加入了少量冷启动数据和多阶段训练管道。具体来说：先收集几千条冷启动数据微调DeepSeek-V3-Base，然后像DeepSeek-R1-Zero那样做推理导向的强化学习；等RL过程接近收敛时，用拒绝采样方法从RL检查点生成新SFT数据，再结合DeepSeek-V3的监督数据（写作、事实问答、自我认知等），重新训练模型；最后再覆盖所有场景的prompt做一轮强化学习。最终得到的DeepSeek-R1检查点，在推理任务上跟OpenAI-o1-1217平起平坐。

团队还做了一件事：把DeepSeek-R1的能力蒸馏到小型密集模型上。以Qwen2.5-32B为基础模型，直接从DeepSeek-R1蒸馏，效果比在该模型上直接做强化学习还要好。这说明，基础模型里发现的推理模式，对提升推理能力至关重要。

1.1 贡献

（1）后训练：在基础模型上搞大规模强化学习

DeepSeek直接在基础模型上应用RL，不依赖SFT作为起点。这个方法让模型自己能通过链式推理去探索复杂问题的解法，搞出了DeepSeek-R1-Zero。这个模型展示了自我验证、反思、生成长推理链之类的能力，是推理模型研究的一个重要里程碑。值得一提的是，这是第一次公开的研究验证了：纯强化学习就能激发大语言模型的推理能力，完全不用SFT。这一突破给后续发展铺平了路。

团队还引入了开发DeepSeek-R1的训练管道——两个强化学习阶段（目的是发现改进的推理模式并与人类偏好对齐），加上两个监督微调阶段（给模型的推理和非推理能力提供基础种子）。

（2）蒸馏：小模型也能有大能力

研究表明，可以把大模型的推理模式蒸馏到小模型里，而且小模型的表现比直接在小模型上用强化学习得到的推理模式更好。开源的DeepSeek-R1及其API，能给研究社区提供支持，帮大家开发出性能更好的小模型。

基于DeepSeek-R1生成的推理数据，团队微调了好几个研究界常用的密集模型。结果很亮眼：DeepSeek-R1-Distill-Qwen-7B在AIME 2024上拿了55.5%，超过了QwQ-32B-Preview；DeepSeek-R1-Distill-Qwen-32B在AIME 2024上得分72.6%，MATH-500上94.3%，LiveCodeBench上57.2%，这些成绩显著优于之前的开源模型，跟o1-mini不相上下。

1.2 模型评估结果

（1）推理任务

DeepSeek-R1在AIME 2024上pass@1得分79.8%，略微超过OpenAI-o1-1217；MATH-500上97.3%，和o1-1217持平，甩开其他模型一大截。编程方面，Codeforces平台Elo评分2029，超过了96.3%的人类选手；工程相关任务上，比DeepSeek-V3好一点，对开发人员实际干活有点帮助。

（2）知识类任务

在MMLU、MMLU-Pro、GPQA Diamond这些基准上，DeepSeek-R1显著优于DeepSeek-V3。虽然比OpenAI-o1-1217略低一点，但已经超过了其他闭源模型，在教育类任务里很有竞争力。事实问答SimpleQA上，也比DeepSeek-V3强，这跟OpenAI-o1超越GPT-4o的趋势类似。

（3）其他任务表现

DeepSeek-R1在创意写作、通用问答、编辑、摘要等广泛任务里也表现出色。AlpacaEval 2.0上长度控制胜率87.6%，ArenaHard上胜率92.3%，说明它在非考试类查询中智能处理能力很强。另外，长上下文理解任务上，远超DeepSeek-V3。

02 模型训练方法

2.1 概述

以往的研究通常靠大量监督数据来提升性能。DeepSeek证明：即使不用SFT作为冷启动，大规模强化学习也能显著提升推理能力。而适量冷启动数据的引入，可以进一步提高性能。下面分三块来讲：

DeepSeek-R1-Zero：直接在基础模型上用RL，没有任何SFT数据；
DeepSeek-R1：从经过数千条长推理链样本微调的检查点开始做RL；
推理能力蒸馏：把DeepSeek-R1的推理能力转移到小型密集模型里。

2.2 DeepSeek-R1-Zero：在基础模型上的强化学习

团队探索了大语言模型在没有监督数据的情况下发展推理能力的潜力，重点关注通过纯RL实现的自我演化。

2.2.1 强化学习算法

为了降低训练成本，采用了群相对策略优化（GRPO）。这种方法放弃了跟策略模型一样大的评价模型，而是通过群体得分来估计基线。具体来说，对每个问题，从旧策略中采样一组输出，然后最大化目标函数来优化策略模型。

2.2.2 奖励建模

奖励是训练信号的来源，决定了优化方向。团队为DeepSeek-R1-Zero设计了两类基于规则的奖励：

准确性奖励：评估响应是否正确。比如数学题要求指定格式的最终答案，编程题用编译器根据测试用例给反馈。
格式奖励：要求模型把推理过程放在和标签之间。

没有用神经奖励模型，因为大规模RL里它容易出奖励黑客问题，而且重新训练成本高、管道复杂。

2.2.3 训练模板

设计了一个简单的模板，引导基础模型遵循指令。模板要求先出推理过程，再给最终答案。故意把约束只限在这种结构化格式内，避免内容上的特定偏向（比如要求反思性推理），以便观察模型在RL过程中的自然发展。

图片来源：《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》

2.2.4 性能表现、自我演化过程与“顿悟时刻”

（1）性能表现

DeepSeek-R1-Zero在AIME 2024上平均pass@1从15.6%涨到71.0%，跟OpenAI-o1-0912相当，凸显了RL算法的有效性。多数投票法还能进一步提到86.7%，超过了o1-0912。这种不用多数投票也能有竞争力的表现，说明它的基础能力和发展潜力都很强。

图片来源：《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》

（2）自我演化过程

这个自我演化过程展示了RL如何推动模型自主提升推理能力。直接从基础模型开始RL训练，没有SFT阶段的干扰，可以清楚观察模型进展。图3显示，模型的“思考时间”在整个训练过程中持续改善——不是外部调整的结果，而是内部能力的自然发展。随着测试时计算时间延长，模型自主获得了处理复杂推理任务的能力，从几百到几千个推理token，能更深入探索和完善思考过程。演化中，模型逐渐表现出反思、重新评估、探索不同方案等复杂行为，这些是自然涌现的，不是显式编程出来的。

图片来源：《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》

（3）“顿悟时刻”

如表3所示，在模型某个中间版本出现了“顿悟时刻”：模型学会了通过重新评估初始方法，给问题分配更多思考时间。这展示了推理能力的增长，也说明了RL能产生意想不到的复杂结果。这个“顿悟”不仅是模型的，也是观察者的——它突显了RL的力量：不用显式教导，只给适当激励，模型就能自主发展出高级策略。这为未来更自主、更适应的模型铺平了路。

图片来源：《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》

（4）DeepSeek-R1-Zero的局限性

虽然DeepSeek-R1-Zero推理能力强，还自主发展出了出乎意料的推理行为，但可读性差、语言混杂的问题不容忽视。为了解决这些，团队开发了DeepSeek-R1，结合了用户友好的冷启动数据和RL。

2.3 DeepSeek-R1：具有冷启动的强化学习

DeepSeek-R1是在DeepSeek-R1-Zero基础上改进的，目的是解决可读性问题并进一步提升性能。冷启动RL分为多个阶段，每个阶段有特定目标和方法。

2.3.1 冷启动阶段

和DeepSeek-R1-Zero不同，为了避免基础模型上RL早期的不稳定，团队使用一小部分长推理链数据微调作为初始RL模型的基础。数据收集方式包括：用长推理链示例做少样本提示、直接提示模型生成带反思和验证的详细答案、收集DeepSeek-R1-Zero输出并人工后期处理。最终收集了几千条冷启动数据微调DeepSeek-V3-Base作为RL起点。相比DeepSeek-R1-Zero，冷启动数据有两个优势：可读性更高（格式清晰，每段末尾加总结，过滤掉不阅读的响应），以及潜在推理引导能力（以人类偏好设计格式，性能明显提升）。

2.3.2 面向推理的强化学习阶段

冷启动微调后，做大规模RL训练，专注于编程、数学、科学、逻辑推理等推理密集型任务。为解决语言混杂，引入了语言一致性奖励（按推理链中目标语言词汇占比计算）。虽然消融实验显示这种对齐使性能略有下降，但输出更符合用户阅读偏好。最终将推理准确性奖励和语言一致性奖励直接求和，持续RL直到模型在推理任务上收敛。

2.3.3 拒绝采样与监督微调阶段

当推理RL达到收敛时，利用生成的检查点收集下一轮SFT数据。相比初始冷启动数据，此阶段涵盖更多领域：写作、角色扮演、通用任务等。具体包括推理数据（从RL检查点拒绝采样，过滤语言混杂、段落过长、代码块过多的链，每个提示采样多个响应只留正确，最终约60万条）和非推理数据（写作、事实问答、自我认知、翻译等，复用DeepSeek-V3的SFT数据处理管道，约20万条）。总共约80万条样本，对DeepSeek-V3-Base做两轮微调，增强通用能力。

2.3.4 面向所有场景的强化学习阶段

为了进一步对齐人类偏好，实施了第二阶段的RL，改进有用性和无害性，同时优化推理能力。具体做法：结合多种奖励信号和多样化的提示分布。推理数据沿用DeepSeek-R1-Zero的方法，用基于规则的奖励；通用数据用奖励模型捕捉人类复杂偏好。评估有用性时只看最终的摘要部分（减少对推理过程的干扰），评估无害性时看整个输出（包括推理过程和摘要）。最终训练出的模型既在推理任务中顶级，又优先保证有用性和无害性。

2.4 蒸馏：赋予小型模型推理能力

为了让小模型也具备类似DeepSeek-R1的推理能力，团队用上述80万条DeepSeek-R1数据集直接微调开源模型。结果表明，这种简单的蒸馏方法显著增强了小模型的推理能力。蒸馏目标包括Qwen系列（Qwen2.5-Math-1.5B、7B、14B、32B）和Llama系列（Llama-3.1-8B、Llama-3.3-70B-Instruct）。只用了SFT，没引入RL阶段（引入RL肯定会更优，但本次主要验证蒸馏有效性，RL潜力留给社区探索）。

03 实验设置

基准测试：包括MMLU、MMLU-Redux、MMLU-Pro、C-Eval、CMMLU、IFEval、FRAMES、GPQA Diamond、SimpleQA、C-SimpleQA、SWE-Bench Verified、Aider、LiveCodeBench、Codeforces、中国全国高中数学奥林匹克竞赛（CNMO 2024）、美国数学邀请赛（AIME 2024）。开放式生成任务用LLM作为评审员评估，只提供最终摘要部分以避免长度偏差。

评估提示：遵循DeepSeek-V3的设置，不同基准用不同提示方式。标准基准用simple-evals框架；MMLU-Redux用Zero-Eval零样本格式；MMLU-Pro、C-Eval、CLUE-WSC稍作修改为零样本（因为少样本提示中的推理链会降低DeepSeek-R1性能）。代码和数学基准：HumanEval-Mul覆盖八种编程语言；LiveCodeBench用CoT格式；Codeforces用特定竞赛题目和专家测试用例；SWE-Bench Verified用agentless框架；AIDER用“diff”格式。输出限制在最大32,768个token。

基线模型：包括DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini、OpenAI-o1-1217（由于中国大陆访问困难，数据来自官方报告）。蒸馏模型与QwQ-32B-Preview对比。

评估设置：最大生成长度32,768 token。因贪婪解码评估长输出推理模型容易高重复率，默认使用pass@k方法，非零温度报告pass@1（采样温度0.6，top-P 0.95，根据测试集大小每个问题生成4-64个响应）。AIME 2024还报告了64个样本多数投票的共识结果。

3.1 DeepSeek-R1 评估结果

图片来源：《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》

在面向教育的知识基准（MMLU、MMLU-Pro、GPQA Diamond）中，DeepSeek-R1优于DeepSeek-V3，主要归功于STEM相关问题的准确性增强。FRAMES（长上下文问答）中表现突出，说明推理模型在AI驱动的搜索和数据分析任务中潜力巨大。事实类SimpleQA上优于DeepSeek-V3，但中文SimpleQA上不如，原因是安全性RL后倾向于拒绝回答某些查询（如果不应用安全性RL，准确率可超70%）。IF-Eval上成果出色（归功于指令遵循数据）。AlpacaEval 2.0和ArenaHard的表现表明在写作和开放问答中有优势——摘要长度简洁（ArenaHard平均689 token，AlpacaEval 2.0平均2,218字符），避免了长度偏差。数学任务与OpenAI-o1-1217持平；编程算法任务（LiveCodeBench、Codeforces）主导；工程编程任务上OpenAI-o1-1217在Aider中更好，但SWE Verified上相当。工程类任务下一版本会提升（当前RL训练数据有限）。

3.2 蒸馏模型评估结果

图片来源：《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》

如表5所示，仅通过蒸馏DeepSeek-R1的输出，高效的DeepSeek-R1-7B就在各个方面超过了非推理优化模型（如GPT-4o-0513）。DeepSeek-R1-14B超过QwQ-32B-Preview；DeepSeek-R1-32B和DeepSeek-R1-70B在多数基准上显著优于o1-mini。这些结果表明蒸馏技术潜力很大。如果对这些蒸馏模型再应用RL，性能还能进一步提高——这里展示的只是简单SFT蒸馏结果。

04 讨论

4.1 蒸馏与强化学习的比较

实验表明，通过蒸馏DeepSeek-R1，小模型能获得强大推理能力。但一个问题自然浮现：如果不依赖蒸馏，单靠大规模RL能达到类似性能吗？为了回答这个问题，团队在Qwen-32B-Base上做了大规模RL（数学、代码、STEM数据，超过10,000步），生成了DeepSeek-R1-Zero-Qwen-32B。结果（表6）显示，该模型与QwQ-32B-Preview相当。然而，从DeepSeek-R1蒸馏得到的DeepSeek-R1-Distill-Qwen-32B在所有基准上都明显优于前者。

图片来源：《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》

由此得出两个结论：第一，将强大模型蒸馏到小模型是高效且效果显著的方法，而小模型靠大规模RL可能需要巨大算力，且性能可能达不到蒸馏水平。第二，蒸馏经济有效，但要突破智能边界，还得靠更强大的基础模型和更大规模的RL。

4.2 一些不成功的尝试

在开发DeepSeek-R1过程中，团队尝试了过程奖励模型（PRM）和蒙特卡罗树搜索（MCTS），但都不成功。PRM难以明确定义细粒度推理步骤，判断中间步骤正确性困难，自动标注效果差、手动标注难扩展，还容易奖励作弊、增加成本。MCTS用于提升测试时计算可扩展性时，因为大语言模型的token生成搜索空间远大于棋类游戏，容易陷入局部最优，且模型训练困难，影响生成质量，导致难以迭代改进。

05 未来工作

未来，DeepSeek计划在以下方向继续研究DeepSeek-R1：

通用能力：目前DeepSeek-R1在函数调用、多轮对话、复杂角色扮演、JSON输出等任务上不如DeepSeek-V3，计划探索如何用长推理链增强这些表现。
语言混杂：当前针对中英文优化，其他语言查询可能导致语言混杂（即使用户用非中英文提问，模型也可能用英文推理和响应），未来更新解决。
提示工程：模型对提示较敏感，少样本提示会持续降低性能，建议用户用零样本设置直接描述问题并指定输出格式。
软件工程任务：评估时间较长影响RL效率，大规模RL尚未广泛应用，导致DeepSeek-R1在软件工程基准上未显著超越DeepSeek-V3。未来版本通过拒绝采样或异步评估提高效率。