DeepSeek-R1论文速读要点_AI热点日报

DeepSeek-R1论文速读要点

类型：热点整理2026-06-29

春节临近，DeepSeek再次带来重磅消息——DeepSeek-R1系列模型正式开源。先来看Benchmark成绩：从多个高难度评测结果来看，DeepSeek-R1已能与OpenAI-o1-1217比肩，稳居推理模型的第一梯队。此外，基于Qwen2 5-32B蒸馏得到的DeepSeek-R1-32B

春节临近，DeepSeek再次带来重磅消息——DeepSeek-R1系列模型正式开源。先来看Benchmark成绩：从多个高难度评测结果来看，DeepSeek-R1已能与OpenAI-o1-1217比肩，稳居推理模型的第一梯队。此外，基于Qwen2.5-32B蒸馏得到的DeepSeek-R1-32B同样表现惊艳，与OpenAI-o1-mini不相上下。

DeepSeek-R1论文速读

一直以来，业界对SFT的依赖根深蒂固——已有公开研究无一例外都采用SFT加RL的路线，第一步就需要大量SFT数据来做指令微调。但DeepSeek偏偏不走寻常路。他们发现，即使完全不用SFT，仅靠大规模强化学习（RL）也能显著提升推理能力。如果再加入少量冷启动数据进行SFT，效果还能更上一层楼。

这篇文章有以下几个核心贡献值得关注：

DeepSeek-R1-Zero：不依赖SFT，直接上RL，效果依然能打。
DeepSeek-R1：加入少量（数千级别）CoT数据做SFT作为冷启动，再跑RL，性能更优，回答也更符合人类偏好。
蒸馏小模型：用DeepSeek-R1的样例去蒸馏小模型，效果惊人。

下面逐一展开说明。

DeepSeek-R1-Zero

直接从DeepSeek-V3-Base开始，沿用DeepSeek独家定制的GRPO，搭配一个看似普通的Prompt模板。奖励模型方面，考虑到是推理任务，没有训练常规的稠密奖励模型，而是结合了两种奖励方式：

准确性奖励：数学问题直接匹配标准答案，代码问题基于编译执行单测试验证。
格式奖励：看CoT过程是否以thinking和response标准包裹。

就是这么看起来简单粗暴的方法，效果却出奇地好。随着训练步数增加，性能稳步提升，达到了与OpenAI-o1-0912相近的水平。

并且观察到了明显的“进化”现象——随着训练步数增加，输出平均长度也在增加。这意味着LLM已经在潜移默化中学会进行更多思考和推理，从而获得更好的效果。

甚至还出现了自主的“Aha Moment”情况，模型突然能开始反思。DeepSeek顿悟了，DeepSeek的团队成员们也顿悟了，旁观者似乎也跟着顿悟了——为什么只是平平无奇的奖励信号，就能让它学会这么多？还得是RL！

难道真就这么完美？SFT完全没必要了？显然也不是。DeepSeek的团队也发现了一些问题，比如DeepSeek-R1-Zero生成的答案可读性相对较差，存在混合语言输出（这个现象在QwQ上也比较明显）。为了让模型说“人话”，还是得加点SFT——这就轮到DeepSeek-R1登场了。

DeepSeek-R1

DeepSeek-R1-Zero已经证明，完全不进行SFT直接RL就能显著提升推理能力，但输出的可读性和混合语言输出依然是老大难。别忘了，SFT的初衷就是让LLM学会遵循指令、模仿人类语言。既然完全不SFT也能有非常好的效果，那少量加一点是不是就能让LLM学会说人话，同时推理能力还能再上一层楼？DeepSeek-R1采用了以下4个阶段，进一步强化能力。

少量数据冷启动

采用一定手段收集少量高质量数据：对于长CoT数据，使用few-shot直接提示DeepSeek-R1-Zero通过反思和验证生成详细答案，然后通过人工注释者的后处理来细化结果。总共收集了数千个样本。相比完全不用SFT，这一轮轻量SFT显著增强了可读性，后续实验也证明少量数据冷启动能进一步提升推理能力。

对推理场景进行RL

然后在数学、代码等推理场景上跑RL。方法和DeepSeek-R1-Zero一样，但针对输出中语言混合的情况，额外增加了语言一致性奖励——统计输出中目标语言的占比作为奖励信号，与准确性奖励求和作为最终奖励，进行过程反馈。

拒绝采样和SFT

这一步主要是为了提升模型的通用能力，通过构建两部分数据进行SFT来实现。

推理数据：采用拒绝采样的方式，从前一阶段得到的模型中生成推理过程，并额外引入一些无法用规则进行奖励的数据（这部分用DeepSeek-V3通过LLM-as-judge的方式判定，比较Ground Truth与实际输出）。同时过滤了包含混合语言、长段落、代码块的CoT数据，总计60万样本。
非推理数据：使用DeepSeek-V3生成，复用DeepSeek-V3的SFT数据，共计20万推理无关的样本。

这一阶段总共生成了80万样本，用DeepSeek-V3-Base进行了2个epoch的SFT。

适配所有场景的RL阶段

最后，为了同时平衡推理能力和通用能力，又进行了一次RL。对于不同的数据类型，采用不同的Prompt和奖励。

推理数据：沿用DeepSeek-R1-Zero的方法，在数学、编程和逻辑推理领域使用基于规则的奖励指导学习。
通用数据：使用通用的RM作为奖励，基本复用DeepSeek-V3的方式。有用性评估专注于最终summary，确保对用户的实用性和相关性，尽量减少对底层推理过程的干扰。无害性评估则覆盖整个响应（包括推理过程和总结），识别和减轻生成过程中可能出现的风险、偏见或有害内容。

最终，奖励信号和多样化数据分布的整合，使模型既能保持推理能力，又能满足有用性和无害性，取得了比较好的用户体验。实验结果自然是遥遥领先，与OpenAI-o1-1217不相上下。

蒸馏小模型

直接用DeepSeek-R1阶段三“拒绝采样和SFT”时的数据对小模型做SFT——不含RL阶段——就能取得很好的效果。

一些讨论

蒸馏 vs RL

从实验结果来看，蒸馏既便宜又实用。用一个小模型费劲做SFT加RL，最后的效果还远不如直接蒸馏性能更好模型的输出——就是简单做个SFT。

一些暂未成功的尝试

这里DeepSeek团队诚意满满，分享了几个业界呼声很高但他们暂时没尝试成功的方法。

PRM：指出了PRM的几个主要限制，影响了规模化应用。

在一般推理过程中明确定义细粒度的步骤比较困难。
对步骤打标难以扩展，自动标注准确率不高，手动标注又难以规模化。
引入基于模型的PRM，会不可避免地遇到reward hacking，重新训练奖励模型需要额外资源，并使整个训练流程复杂化。

MCTS：他们也尝试了MCTS，但过程中遇到一些问题。一是搜索空间过大，虽然设置了最大扩展限制，但容易陷入局部最优；二是value model直接影响生成质量，而训练一个细粒度的value model本质上很困难，使得模型难以迭代改进。

一些未来的改进方向

通用能力：DeepSeek-R1的通用能力仍然不及DeepSeek-V3。团队计划探索如何利用长CoT来提升这些领域的任务表现。
语言混合：DeepSeek-R1目前针对中文和英文进行了优化，但在处理其他语言以及语言遵循方面依然存在问题。
PE：DeepSeek-R1对Prompt非常敏感，few-shot提示会持续降低性能。建议用户直接描述问题并指定输出格式（zero-shot，不要加示例）以获得最佳结果。
软件工程任务：由于长时间评估会影响RL过程的效率，大规模RL尚未在软件工程任务中广泛应用。因此DeepSeek-R1在软件工程基准测试上未显示出比DeepSeek-V3更大的改进。未来版本计划通过实施拒绝采样或在RL过程中引入异步评估来提高效率。

来源：https://www.53ai.com/news/OpenSourceLLM/2025012312764.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。