DeepSeek九篇论文解读学习要点下篇_AI热点日报

DeepSeek九篇论文解读学习要点下篇

类型：热点整理2026-07-01

DeepSeek系列论文是近年来追踪代码与推理智能前沿进展的绝佳窗口。通过系统性地解读其核心研究成果，我们能清晰地看到一条技术演进的脉络：从早期的代码专业模型构建，到尝试并最终超越基于奖励模型的复杂范式，最终走向一种大道至简的规则化强化学习路径。第五篇 2024年1月《DeepSeek-Code

DeepSeek系列论文是近年来追踪代码与推理智能前沿进展的绝佳窗口。通过系统性地解读其核心研究成果，我们能清晰地看到一条技术演进的脉络：从早期的代码专业模型构建，到尝试并最终超越基于奖励模型的复杂范式，最终走向一种大道至简的规则化强化学习路径。

第五篇 2024年1月

《DeepSeek-Coder: When the Large Language Model Meets Programming - The Rise of Code Intelligence》

第六篇 2024年6月

《DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence》

DeepSeek在推理领域的探索，最早可以追溯到其代码模型DeepSeek Coder。为通用大模型开发专门的代码版本，在业界几乎是标准操作，无论是Llama还是通义千问，大模型团队通常都会推出自己的代码模型。这背后有两个深层原因：一是代码辅助本身就是一个极具实用价值的专业场景；二是编码行为本质上就是逻辑推理的一种体现。

初代DeepSeek Coder本身的技术架构相对常规，它是一个标准的稠密模型，其设计与DeepSeek初代通用模型及Llama 2类似，区别主要在于训练数据——它使用了海量的纯代码数据进行训练。该系列模型从1.3B到33B参数规模全面开源，为社区提供了高质量的代码基座。随后的DeepSeek Coder v1.5版本，则引入了“继续预训练”（Continue Pretrain）技术。这里需要区分两个概念：一是从头开始预训练一个代码模型；二是在一个已有的通用基座模型（例如DeepSeek LLM 7B）之上，继续使用代码数据进行增量预训练。v1.5采用的正是后者，其在原始模型基础上，额外使用了约2T的token进行训练，其中约70%为代码数据，其余为混合文本。这两个版本均对DeepSeek的早期声誉起到了关键作用，尤其在海外开发者社区中，DeepSeek Coder以其优异的代码生成能力而备受推崇。

这里有一个有趣的观察：尽管DeepSeek后续的MoE模型（如V2的200B、V3的600B）在技术上更为先进，但由于其庞大的参数量对部署基础设施要求极高，实际在开发者中广泛使用的，反而是参数量适中（7B、33B）的DeepSeek Coder系列。这导致了一个现象：很长一段时间里，海外社区对DeepSeek的认知更多是“一个强大的代码模型”，其通用能力反而被相对低估。代码模型之所以能成为早期生产力的代表，在于它能切实帮助广大开发者提升效率，这与当时更多用于对话场景的模型形成了鲜明对比。DeepSeek Coder的成功也印证了一个假设：专注于代码能力的提升，能够反哺通用模型在逻辑推理等方面的表现。

到了DeepSeek Coder-V2，其架构自然切换到了MoE路线，因为它基于DeepSeek-V2的通用MoE检查点进行继续训练。这篇论文中一个值得关注的细节是它对奖励模型（Reward Model）的运用。尽管后来DeepSeek放弃了这条路线，但在当时，使用奖励模型进行代码生成的“筛选”是社区的主流做法。其逻辑是：让模型一次性生成多个候选答案（例如64个），然后通过一个训练好的奖励模型判断哪个答案最“正确”，只将最优结果返回给用户。理论上，这能提升最终输出的准确率。论文中也对比了多种方案：单纯的多数据投票、基于结果监督的奖励模型、以及基于过程监督的奖励模型。实验显示，过程监督奖励模型的效果最好。

然而，这种方法存在明显的成本问题：生成多个候选答案并运行奖励模型进行筛选，无疑极大地增加了推理成本。更重要的是，当模型规模进一步扩大时，额外训练的奖励模型本身可能会引入新的不稳定性问题。相比之下，基于规则的奖励（例如，代码能否通过测试用例）虽然简单，但在大规模应用时反而可能更加稳健。这为后续的技术转向埋下了伏笔。

第七篇 2024年4月

《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》

接下来是数学推理方面一篇至关重要但常被低估的论文：《DeepSeek-Math》。这篇工作之所以具有里程碑意义，在于它是首个公开复现并创新OpenAI“过程监督”路线的研究。

OpenAI在《Let‘s Verify Step by Step》论文中，通过耗费巨资人工标注80万条数据（PRM800K），训练了一个能判断数学推理每一步正确性的奖励模型，引领了过程监督的风潮。DeepSeek-Math的核心创新在于，它摒弃了昂贵的人工标注，提出了一种自动构建过程监督标签的方法。其逻辑巧妙而有效：假设模型生成了某一步推理，固定这一步，让模型基于此继续生成多个后续解题路径。如果这些后续路径的最终正确率很高，则认为这一步很可能是正确的；反之则可能是错误的。通过这种“让模型自我验证”的方式，DeepSeek实现了低成本、自动化的过程监督数据构造，并且效果逼近人类标注。

这篇论文的另一个重磅贡献是提出了GRPO（Group Relative Policy Optimization）方法。在强化学习领域，PPO（近端策略优化）是当时的主流，但其需要同时维护策略模型、奖励模型、参考模型和价值模型四个大型模型，训练资源占用巨大，成本高昂。DeepSeek出于其一向的“降本增效”理念，移除了其中的价值模型，提出了更轻量的GRPO。这一创新不仅显著降低了训练的内存和计算开销，而且成为后续DeepSeek系列模型（包括V2、V3乃至R1）进行强化学习的标准配置，并被广泛集成到各类开源框架中。

然而，这篇论文最引人深思的部分，可能在于其坦诚的反思。在论文的5.2.2章节，作者们深入探讨了“为何强化学习有效”以及“如何实现更有效的强化学习”。他们通过“Pass@K”指标（即采样K个结果中包含正确答案的比例）发现一个现象：经过强化学习的模型，在增加采样次数K时，其探索出正确答案的能力提升并不如预期显著。他们坦率地指出，当时的强化学习改进，更像是在对已有的正确答案进行“排序优化”，而非根本性地提升模型“探索出新正确答案”的源头能力。

这一观察极为关键，它直接指向了强化学习系统的核心瓶颈：奖励信号的可靠性与泛化能力。论文中提出了改进方向，例如提升奖励模型的泛化能力。但以今天的视角回看，还有另一条更彻底的路径：完全抛弃奖励模型，转向基于规则的奖励。在数学领域，规则极其简单——答案是否正确。这条规则从小学到博士都适用，无需调整，无比稳健。而一个在特定数据上训练的奖励模型，一旦遇到分布外的难题，其判断就可能失准。DeepSeek-Math论文在巅峰时期却冷静地揭示了所用方法的局限，这种求真务实的态度，恰恰为后续的技术突破指明了方向。

第八篇

《DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data》

另一个体现技术演进思路的有趣工作是DeepSeek-Prover，它专注于数学定理证明。这项工作的特别之处在于，它天然地与“规则化”绑定在一起。

定理证明任务通常需要一个外部的形式化验证引擎。模型的任务是将非形式化的自然语言数学问题，转化为引擎能够理解的形式化语言。一旦转化成功，引擎就能给出绝对正确或错误的验证反馈。这个过程本身就构成了一种完美的、自动化的规则奖励：转化成功并通过验证即获得正奖励，否则为负。这完全绕开了需要训练奖励模型的环节。

DeepSeek-Prover采用了迭代式训练：模型生成形式化语句，用引擎验证，丢弃错误的，保留正确的数据用于下一轮训练。这区别于完全在线的强化学习，是介于离线与在线之间的一种方式。正如之前在DeepSeek-Math中观察到的，完全在线的训练被证明比迭代式更有效，但Prover工作依然在规则化验证的道路上积累了宝贵经验。其v1.5版本虽然在强化学习中仍涉及奖励模型，但已开始处理奖励信号稀疏的问题，并尝试了如MCTS（蒙特卡洛树搜索）等当时流行的复杂解码技术。这些探索，无论是成功的还是曲折的，都为最终找到那条简洁的路径铺平了道路。

第九篇

《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》

所有前期的探索、试错与积淀，最终在DeepSeek-R1这里汇聚成一条“大道至简”的路径。与之前任何工作相比，R1的奖励机制简单得令人惊讶：

1. 最终答案是否正确。

2. 模型的输出是否符合预定的格式规范（例如，先进行“思考”再输出答案）。

仅此而已。没有复杂的奖励模型，没有人工标注，也没有外部验证工具链。它彻底回归到基于简单规则的强化学习。

R1的另一个创新点是“Zero”模型。它跳过了行业常规的“先进行监督微调（SFT），再进行强化学习（RL）”的两阶段流程，而是直接将基座模型投入强化学习训练。这一做法反直觉，却取得了出人意料的效果。在没有经过SFT“启蒙”的情况下，R1-Zero在困难的数学数据集（如AME）上，通过纯粹的强化学习自我迭代，性能从0.2、0.3一路稳步提升至0.7、0.8。它并没有借助知识蒸馏或任何外部模型，仅靠简单的规则奖励和生成长的思维链，就实现了能力的持续突破。

回顾这条演进脉络：从DeepSeek Coder使用奖励模型进行筛选，到DeepSeek Math深入过程监督并提出GRPO，再到DeepSeek Prover尝试规则化验证，最终在R1实现彻底的规则化与简化。R1的成功并非凭空而来，它建立在V3强大的MoE基座之上，利用了早已验证过的GRPO算法，并勇敢地抛弃了之前探索中发现的低效环节（如奖励模型、复杂解码）。

最终，DeepSeek-R1展示了一个深刻的洞见：在足够强大的基座模型和高效的训练算法支撑下，极其简单、稳健的规则奖励，配合大规模在线强化学习，就能激发出模型卓越的推理能力。这比依赖复杂、脆弱且成本高昂的辅助模型体系要可靠得多。这一转变，不仅代表了DeepSeek自身技术路线的成熟，也为整个AI社区在构建推理模型方面，提供了一种清晰而有力的新范式。

来源：https://www.53ai.com/news/OpenSourceLLM/2025030109758.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。