游乐游手机版
首页/AI热点日报/热点详情

DeepSeek九篇论文解读学习要点下篇

类型:热点整理2026-07-01
DeepSeek系列论文是近年来追踪代码与推理智能前沿进展的绝佳窗口。通过系统性地解读其核心研究成果,我们能清晰地看到一条技术演进的脉络:从早期的代码专业模型构建,到尝试并最终超越基于奖励模型的复杂范式,最终走向一种大道至简的规则化强化学习路径。 第五篇 2024年1月 《DeepSeek-Code

DeepSeek系列论文是近年来追踪代码与推理智能前沿进展的绝佳窗口。通过系统性地解读其核心研究成果,我们能清晰地看到一条技术演进的脉络:从早期的代码专业模型构建,到尝试并最终超越基于奖励模型的复杂范式,最终走向一种大道至简的规则化强化学习路径。

从DeepSeek 9篇论文的解读中学点什么(下)

第五篇 2024年1月

《DeepSeek-Coder: When the Large Language Model Meets Programming - The Rise of Code Intelligence》

第六篇 2024年6月

《DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence》

DeepSeek在推理领域的探索,最早可以追溯到其代码模型DeepSeek Coder。为通用大模型开发专门的代码版本,在业界几乎是标准操作,无论是Llama还是通义千问,大模型团队通常都会推出自己的代码模型。这背后有两个深层原因:一是代码辅助本身就是一个极具实用价值的专业场景;二是编码行为本质上就是逻辑推理的一种体现。

初代DeepSeek Coder本身的技术架构相对常规,它是一个标准的稠密模型,其设计与DeepSeek初代通用模型及Llama 2类似,区别主要在于训练数据——它使用了海量的纯代码数据进行训练。该系列模型从1.3B到33B参数规模全面开源,为社区提供了高质量的代码基座。随后的DeepSeek Coder v1.5版本,则引入了“继续预训练”(Continue Pretrain)技术。这里需要区分两个概念:一是从头开始预训练一个代码模型;二是在一个已有的通用基座模型(例如DeepSeek LLM 7B)之上,继续使用代码数据进行增量预训练。v1.5采用的正是后者,其在原始模型基础上,额外使用了约2T的token进行训练,其中约70%为代码数据,其余为混合文本。这两个版本均对DeepSeek的早期声誉起到了关键作用,尤其在海外开发者社区中,DeepSeek Coder以其优异的代码生成能力而备受推崇。

这里有一个有趣的观察:尽管DeepSeek后续的MoE模型(如V2的200B、V3的600B)在技术上更为先进,但由于其庞大的参数量对部署基础设施要求极高,实际在开发者中广泛使用的,反而是参数量适中(7B、33B)的DeepSeek Coder系列。这导致了一个现象:很长一段时间里,海外社区对DeepSeek的认知更多是“一个强大的代码模型”,其通用能力反而被相对低估。代码模型之所以能成为早期生产力的代表,在于它能切实帮助广大开发者提升效率,这与当时更多用于对话场景的模型形成了鲜明对比。DeepSeek Coder的成功也印证了一个假设:专注于代码能力的提升,能够反哺通用模型在逻辑推理等方面的表现。

到了DeepSeek Coder-V2,其架构自然切换到了MoE路线,因为它基于DeepSeek-V2的通用MoE检查点进行继续训练。这篇论文中一个值得关注的细节是它对奖励模型(Reward Model)的运用。尽管后来DeepSeek放弃了这条路线,但在当时,使用奖励模型进行代码生成的“筛选”是社区的主流做法。其逻辑是:让模型一次性生成多个候选答案(例如64个),然后通过一个训练好的奖励模型判断哪个答案最“正确”,只将最优结果返回给用户。理论上,这能提升最终输出的准确率。论文中也对比了多种方案:单纯的多数据投票、基于结果监督的奖励模型、以及基于过程监督的奖励模型。实验显示,过程监督奖励模型的效果最好。

然而,这种方法存在明显的成本问题:生成多个候选答案并运行奖励模型进行筛选,无疑极大地增加了推理成本。更重要的是,当模型规模进一步扩大时,额外训练的奖励模型本身可能会引入新的不稳定性问题。相比之下,基于规则的奖励(例如,代码能否通过测试用例)虽然简单,但在大规模应用时反而可能更加稳健。这为后续的技术转向埋下了伏笔。

第七篇 2024年4月

《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》

接下来是数学推理方面一篇至关重要但常被低估的论文:《DeepSeek-Math》。这篇工作之所以具有里程碑意义,在于它是首个公开复现并创新OpenAI“过程监督”路线的研究。

OpenAI在《Let‘s Verify Step by Step》论文中,通过耗费巨资人工标注80万条数据(PRM800K),训练了一个能判断数学推理每一步正确性的奖励模型,引领了过程监督的风潮。DeepSeek-Math的核心创新在于,它摒弃了昂贵的人工标注,提出了一种自动构建过程监督标签的方法。其逻辑巧妙而有效:假设模型生成了某一步推理,固定这一步,让模型基于此继续生成多个后续解题路径。如果这些后续路径的最终正确率很高,则认为这一步很可能是正确的;反之则可能是错误的。通过这种“让模型自我验证”的方式,DeepSeek实现了低成本、自动化的过程监督数据构造,并且效果逼近人类标注。

这篇论文的另一个重磅贡献是提出了GRPO(Group Relative Policy Optimization)方法。在强化学习领域,PPO(近端策略优化)是当时的主流,但其需要同时维护策略模型、奖励模型、参考模型和价值模型四个大型模型,训练资源占用巨大,成本高昂。DeepSeek出于其一向的“降本增效”理念,移除了其中的价值模型,提出了更轻量的GRPO。这一创新不仅显著降低了训练的内存和计算开销,而且成为后续DeepSeek系列模型(包括V2、V3乃至R1)进行强化学习的标准配置,并被广泛集成到各类开源框架中。

然而,这篇论文最引人深思的部分,可能在于其坦诚的反思。在论文的5.2.2章节,作者们深入探讨了“为何强化学习有效”以及“如何实现更有效的强化学习”。他们通过“Pass@K”指标(即采样K个结果中包含正确答案的比例)发现一个现象:经过强化学习的模型,在增加采样次数K时,其探索出正确答案的能力提升并不如预期显著。他们坦率地指出,当时的强化学习改进,更像是在对已有的正确答案进行“排序优化”,而非根本性地提升模型“探索出新正确答案”的源头能力。

这一观察极为关键,它直接指向了强化学习系统的核心瓶颈:奖励信号的可靠性与泛化能力。论文中提出了改进方向,例如提升奖励模型的泛化能力。但以今天的视角回看,还有另一条更彻底的路径:完全抛弃奖励模型,转向基于规则的奖励。在数学领域,规则极其简单——答案是否正确。这条规则从小学到博士都适用,无需调整,无比稳健。而一个在特定数据上训练的奖励模型,一旦遇到分布外的难题,其判断就可能失准。DeepSeek-Math论文在巅峰时期却冷静地揭示了所用方法的局限,这种求真务实的态度,恰恰为后续的技术突破指明了方向。

第八篇

《DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data》

另一个体现技术演进思路的有趣工作是DeepSeek-Prover,它专注于数学定理证明。这项工作的特别之处在于,它天然地与“规则化”绑定在一起。

定理证明任务通常需要一个外部的形式化验证引擎。模型的任务是将非形式化的自然语言数学问题,转化为引擎能够理解的形式化语言。一旦转化成功,引擎就能给出绝对正确或错误的验证反馈。这个过程本身就构成了一种完美的、自动化的规则奖励:转化成功并通过验证即获得正奖励,否则为负。这完全绕开了需要训练奖励模型的环节。

DeepSeek-Prover采用了迭代式训练:模型生成形式化语句,用引擎验证,丢弃错误的,保留正确的数据用于下一轮训练。这区别于完全在线的强化学习,是介于离线与在线之间的一种方式。正如之前在DeepSeek-Math中观察到的,完全在线的训练被证明比迭代式更有效,但Prover工作依然在规则化验证的道路上积累了宝贵经验。其v1.5版本虽然在强化学习中仍涉及奖励模型,但已开始处理奖励信号稀疏的问题,并尝试了如MCTS(蒙特卡洛树搜索)等当时流行的复杂解码技术。这些探索,无论是成功的还是曲折的,都为最终找到那条简洁的路径铺平了道路。

第九篇

《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》

所有前期的探索、试错与积淀,最终在DeepSeek-R1这里汇聚成一条“大道至简”的路径。与之前任何工作相比,R1的奖励机制简单得令人惊讶:

1. 最终答案是否正确。

2. 模型的输出是否符合预定的格式规范(例如,先进行“思考”再输出答案)。

仅此而已。没有复杂的奖励模型,没有人工标注,也没有外部验证工具链。它彻底回归到基于简单规则的强化学习。

R1的另一个创新点是“Zero”模型。它跳过了行业常规的“先进行监督微调(SFT),再进行强化学习(RL)”的两阶段流程,而是直接将基座模型投入强化学习训练。这一做法反直觉,却取得了出人意料的效果。在没有经过SFT“启蒙”的情况下,R1-Zero在困难的数学数据集(如AME)上,通过纯粹的强化学习自我迭代,性能从0.2、0.3一路稳步提升至0.7、0.8。它并没有借助知识蒸馏或任何外部模型,仅靠简单的规则奖励和生成长的思维链,就实现了能力的持续突破。

回顾这条演进脉络:从DeepSeek Coder使用奖励模型进行筛选,到DeepSeek Math深入过程监督并提出GRPO,再到DeepSeek Prover尝试规则化验证,最终在R1实现彻底的规则化与简化。R1的成功并非凭空而来,它建立在V3强大的MoE基座之上,利用了早已验证过的GRPO算法,并勇敢地抛弃了之前探索中发现的低效环节(如奖励模型、复杂解码)。

最终,DeepSeek-R1展示了一个深刻的洞见:在足够强大的基座模型和高效的训练算法支撑下,极其简单、稳健的规则奖励,配合大规模在线强化学习,就能激发出模型卓越的推理能力。这比依赖复杂、脆弱且成本高昂的辅助模型体系要可靠得多。这一转变,不仅代表了DeepSeek自身技术路线的成熟,也为整个AI社区在构建推理模型方面,提供了一种清晰而有力的新范式。

来源:https://www.53ai.com/news/OpenSourceLLM/2025030109758.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。