游乐游手机版
首页/AI热点日报/热点详情

DeepSeek-R1论文速读要点

类型:热点整理2026-06-29
春节临近,DeepSeek再次带来重磅消息——DeepSeek-R1系列模型正式开源。先来看Benchmark成绩:从多个高难度评测结果来看,DeepSeek-R1已能与OpenAI-o1-1217比肩,稳居推理模型的第一梯队。此外,基于Qwen2 5-32B蒸馏得到的DeepSeek-R1-32B

春节临近,DeepSeek再次带来重磅消息——DeepSeek-R1系列模型正式开源。先来看Benchmark成绩:从多个高难度评测结果来看,DeepSeek-R1已能与OpenAI-o1-1217比肩,稳居推理模型的第一梯队。此外,基于Qwen2.5-32B蒸馏得到的DeepSeek-R1-32B同样表现惊艳,与OpenAI-o1-mini不相上下。

DeepSeek-R1论文速读

一直以来,业界对SFT的依赖根深蒂固——已有公开研究无一例外都采用SFT加RL的路线,第一步就需要大量SFT数据来做指令微调。但DeepSeek偏偏不走寻常路。他们发现,即使完全不用SFT,仅靠大规模强化学习(RL)也能显著提升推理能力。如果再加入少量冷启动数据进行SFT,效果还能更上一层楼。

这篇文章有以下几个核心贡献值得关注:

  • DeepSeek-R1-Zero:不依赖SFT,直接上RL,效果依然能打。
  • DeepSeek-R1:加入少量(数千级别)CoT数据做SFT作为冷启动,再跑RL,性能更优,回答也更符合人类偏好。
  • 蒸馏小模型:用DeepSeek-R1的样例去蒸馏小模型,效果惊人。

下面逐一展开说明。

DeepSeek-R1-Zero

直接从DeepSeek-V3-Base开始,沿用DeepSeek独家定制的GRPO,搭配一个看似普通的Prompt模板。奖励模型方面,考虑到是推理任务,没有训练常规的稠密奖励模型,而是结合了两种奖励方式:

  • 准确性奖励:数学问题直接匹配标准答案,代码问题基于编译执行单测试验证。
  • 格式奖励:看CoT过程是否以thinkingresponse标准包裹。

就是这么看起来简单粗暴的方法,效果却出奇地好。随着训练步数增加,性能稳步提升,达到了与OpenAI-o1-0912相近的水平。

并且观察到了明显的“进化”现象——随着训练步数增加,输出平均长度也在增加。这意味着LLM已经在潜移默化中学会进行更多思考和推理,从而获得更好的效果。

甚至还出现了自主的“Aha Moment”情况,模型突然能开始反思。DeepSeek顿悟了,DeepSeek的团队成员们也顿悟了,旁观者似乎也跟着顿悟了——为什么只是平平无奇的奖励信号,就能让它学会这么多?还得是RL!

难道真就这么完美?SFT完全没必要了?显然也不是。DeepSeek的团队也发现了一些问题,比如DeepSeek-R1-Zero生成的答案可读性相对较差,存在混合语言输出(这个现象在QwQ上也比较明显)。为了让模型说“人话”,还是得加点SFT——这就轮到DeepSeek-R1登场了。

DeepSeek-R1

DeepSeek-R1-Zero已经证明,完全不进行SFT直接RL就能显著提升推理能力,但输出的可读性和混合语言输出依然是老大难。别忘了,SFT的初衷就是让LLM学会遵循指令、模仿人类语言。既然完全不SFT也能有非常好的效果,那少量加一点是不是就能让LLM学会说人话,同时推理能力还能再上一层楼?DeepSeek-R1采用了以下4个阶段,进一步强化能力。

少量数据冷启动

采用一定手段收集少量高质量数据:对于长CoT数据,使用few-shot直接提示DeepSeek-R1-Zero通过反思和验证生成详细答案,然后通过人工注释者的后处理来细化结果。总共收集了数千个样本。相比完全不用SFT,这一轮轻量SFT显著增强了可读性,后续实验也证明少量数据冷启动能进一步提升推理能力。

对推理场景进行RL

然后在数学、代码等推理场景上跑RL。方法和DeepSeek-R1-Zero一样,但针对输出中语言混合的情况,额外增加了语言一致性奖励——统计输出中目标语言的占比作为奖励信号,与准确性奖励求和作为最终奖励,进行过程反馈。

拒绝采样和SFT

这一步主要是为了提升模型的通用能力,通过构建两部分数据进行SFT来实现。

  • 推理数据:采用拒绝采样的方式,从前一阶段得到的模型中生成推理过程,并额外引入一些无法用规则进行奖励的数据(这部分用DeepSeek-V3通过LLM-as-judge的方式判定,比较Ground Truth与实际输出)。同时过滤了包含混合语言、长段落、代码块的CoT数据,总计60万样本。
  • 非推理数据:使用DeepSeek-V3生成,复用DeepSeek-V3的SFT数据,共计20万推理无关的样本。

这一阶段总共生成了80万样本,用DeepSeek-V3-Base进行了2个epoch的SFT。

适配所有场景的RL阶段

最后,为了同时平衡推理能力和通用能力,又进行了一次RL。对于不同的数据类型,采用不同的Prompt和奖励。

  • 推理数据:沿用DeepSeek-R1-Zero的方法,在数学、编程和逻辑推理领域使用基于规则的奖励指导学习。
  • 通用数据:使用通用的RM作为奖励,基本复用DeepSeek-V3的方式。有用性评估专注于最终summary,确保对用户的实用性和相关性,尽量减少对底层推理过程的干扰。无害性评估则覆盖整个响应(包括推理过程和总结),识别和减轻生成过程中可能出现的风险、偏见或有害内容。

最终,奖励信号和多样化数据分布的整合,使模型既能保持推理能力,又能满足有用性和无害性,取得了比较好的用户体验。实验结果自然是遥遥领先,与OpenAI-o1-1217不相上下。

蒸馏小模型

直接用DeepSeek-R1阶段三“拒绝采样和SFT”时的数据对小模型做SFT——不含RL阶段——就能取得很好的效果。

一些讨论

蒸馏 vs RL

从实验结果来看,蒸馏既便宜又实用。用一个小模型费劲做SFT加RL,最后的效果还远不如直接蒸馏性能更好模型的输出——就是简单做个SFT。

一些暂未成功的尝试

这里DeepSeek团队诚意满满,分享了几个业界呼声很高但他们暂时没尝试成功的方法。

PRM:指出了PRM的几个主要限制,影响了规模化应用。

  • 在一般推理过程中明确定义细粒度的步骤比较困难。
  • 对步骤打标难以扩展,自动标注准确率不高,手动标注又难以规模化。
  • 引入基于模型的PRM,会不可避免地遇到reward hacking,重新训练奖励模型需要额外资源,并使整个训练流程复杂化。

MCTS:他们也尝试了MCTS,但过程中遇到一些问题。一是搜索空间过大,虽然设置了最大扩展限制,但容易陷入局部最优;二是value model直接影响生成质量,而训练一个细粒度的value model本质上很困难,使得模型难以迭代改进。

一些未来的改进方向

  • 通用能力:DeepSeek-R1的通用能力仍然不及DeepSeek-V3。团队计划探索如何利用长CoT来提升这些领域的任务表现。
  • 语言混合:DeepSeek-R1目前针对中文和英文进行了优化,但在处理其他语言以及语言遵循方面依然存在问题。
  • PE:DeepSeek-R1对Prompt非常敏感,few-shot提示会持续降低性能。建议用户直接描述问题并指定输出格式(zero-shot,不要加示例)以获得最佳结果。
  • 软件工程任务:由于长时间评估会影响RL过程的效率,大规模RL尚未在软件工程任务中广泛应用。因此DeepSeek-R1在软件工程基准测试上未显示出比DeepSeek-V3更大的改进。未来版本计划通过实施拒绝采样或在RL过程中引入异步评估来提高效率。
来源:https://www.53ai.com/news/OpenSourceLLM/2025012312764.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。