一本书读懂DeepSeek核心技术(文末送书)

时间：2025-07-04 13:20

2025年年初，deepseek 成为全球人工智能（ai）领域的焦点，其deepseek-v3 和deepseek-r1 版本在行业内引发了结构性震动。DeepSeek-V3 是一

2025年年初，deepseek 成为全球人工智能（ai）领域的焦点，其deepseek-v3 和deepseek-r1 版本在行业内引发了结构性震动。

DeepSeek-V3 是一个拥有 6710 亿个参数的混合专家模型（MoE），每个token（模型处理文本的基本单位）激活 370 亿个参数。该模型在 14.8 万亿个高质量 token上进行预训练，采用 MLA 和 MoE 架构。DeepSeek-V3 的发布几乎没有预热和炒作，仅凭借其出色的效果和超低的成本迅速走红。

DeepSeek-R1 则是在 DeepSeek-V3 的基础上构建的推理模型，它在后训练阶段大规模使用强化学习技术，仅凭极少标注数据便大幅提升了模型的推理能力。在数学、代码、自然语言推理等任务上，DeepSeek-R1 的效果已可比肩 OpenAI-o1 正式版。

DeepSeek-R1 在基准测试中的表现

DeepSeek-V3技术突破

DeepSeek-V3 的模型架构整体上基于 Transformer 的 MoE 架构，并在细节实现上做了大量的创新和优化，如大量小专家模型、多头潜在注意力、无辅助损失的负载平衡、多 token预测技术（MTP）等，大幅提升了模型的性能。

在模型训练方面，DeepSeek 依托自研的轻量级分布式训练框架 HAI-LLM，通过算法、框架和硬件的紧密配合，突破了跨节点 MoE 训练中的通信瓶颈，实现了高效稳定的训练。DeepSeek-V3 是业界率先使用 FP8 进行混合精度训练的开源模型。

在推理部署方面，DeepSeek-V3 采用预填充（Prefilling）和解码（Decoding）分离的策略，以及冗余专家策略，在提高推理速度的同时确保了系统的稳定性和可靠性。

DeepSeek 架构图

DeepSeek-R1技术突破

01.纯强化学习训练

DeepSeek-R1-Zero 的核心创新之一是采用纯强化学习（Reinforcement Learning，RL）进行训练。这一方法颠覆了传统的依赖有监督微调（Supervised Fine-Tuning，SFT）和人类反馈强化学习（Reinforcement Learning from Human Feedback，RLHF）的训练模式，首次验证了无须任何 SFT 数据，仅通过强化学习即可实现推理能力的自主进化。

02.GRPO 算法

GRPO 算法是 DeepSeek-R1-Zero 使用的另一个重要的创新算法。与传统的强化学习算法（如 PPO、DPO）不同，GRPO 算法通过组内奖励对比直接优化策略网络。具体而言，GRPO 算法将同一问题生成的 N 条候选答案划为一组，以组内平均奖励为基线，计算相对优势值。这种方法不需要额外训练价值模型，降低了训练复杂度，提高了训练效率。

GRPO 与 PPO 对比示意图

03.奖励模型的创新

在强化学习的训练过程中，DeepSeek 研究团队选择面向结果的奖励模型，而不是通常的面向过程的奖励模型。这种方式可以较好地避免奖励欺骗，同时，由于不需要大量标注数据，可以降低训练复杂度。

结果奖励和过程奖励

“冷启动 + 多阶段 RL”

为了解决纯强化学习训练带来的可读性差和多语言混杂等问题，DeepSeek-R1 采用“冷启动 + 多阶段 RL”的训练策略。在冷启动阶段，引入数千条高质量的长思维链数据对基础模型进行微调，强制规范输出格式，提高可读性。随后，通过两阶段强化学习进一步优化模型的性能。

推理导向 RL：结合规则奖励（如答案准确性、语言一致性），优化模型在数学、编程等结构化任务中的表现。通用对齐 RL：融入人类偏好奖励模型，确保模型在开放域任务中的安全性与实用性。

DeepSeek-R1 的训练过程DeepSeek-R1-Zero 在训练初期没有人工示范，完全靠自己摸索。就像让小孩自己解谜题，结果他居然悟出了很多强大的解题技巧！但仅靠自我摸索的 DeepSeek-R1-Zero 给出的答案有时很难读懂，甚至会中英文混杂，或者偏离人们习惯的表达方式。因此，在训练 DeepSeek-R1 时，DeepSeek 研究团队对模型进行了两次额外的调整：第一次是喂给它一些冷启动的例子，相当于给模型打好基础，让它知道回答时的基本礼仪和清晰度；第二次是在强化学习之后，收集在训练中表现优秀的解题示例，再混合一些人工整理的题目，重新训练模型。通过这样的流程，DeepSeek-R1 就像一个经历了自学、纠错、再学习、再实战的学生，已成长为解题高手。上述过程还揭示了一个少有人注意的基本原则，那就是要让模型自由地思考。在许多 AI实验中，模型的结构约束越少，则当计算资源增加时，最终性能的上限越高。反之，如果在早期给模型添加过多的结构约束，则它的最终表现可能会受到限制，失去了更多自主探索的可能性。在各种训练模型推理能力的范式中，基于结果奖励的强化学习给模型的约束最少。以结果为导向，用结果来激励——“Don’t teach, incentivize.”也就是说，不要去“教”模型，而要“激励”它自主探索。

《DeepSeek核心技术揭秘》是剖析 DeepSeek 技术原理的专业技术书，以全面的内容、深入的技术原理解析和前瞻性的行业洞察，为技术人员、研究人员和大模型相关技术爱好者提供了宝贵的学习资料。

本书目录结构

第1章介绍 DeepSeek 的一系列技术突破与创新，如架构创新、训练优化、推理与部署优化等，让读者对 DeepSeek 的性能突破形成直观的认识。同时，介绍 DeepSeek 的模型家族，涵盖通用语言模型、多模态模型、代码生成与理解等领域，展现了 DeepSeek 在大模型的不同细分领域取得的成就。

第2章为初学者深入浅出地讲解 DeepSeek 的使用方法。从推理模型与通用模型的差异，到具体的使用案例，读者可以直观地感受 DeepSeek 在实际应用中的强大功能。对提示工程的详细介绍，可以帮助读者了解如何通过精心设计的提示词更好地发挥 DeepSeek 的能力。对提示词链的高级使用技巧的介绍，为读者进一步提升 DeepSeek 使用效果提供参考。

第3章和第4章是本书的核心与精华。

第3章深入剖析 DeepSeek-V3 的模型架构、训练框架、推理阶段优化、后训练优化等关键技术。从混合专家模型（MoE）的起源与发展，到 DeepSeek-V3 的 MoE 优化，再到对多头潜在注意力（MLA）机制和多 token 预测的详细解读，帮助读者全面了解 DeepSeek-V3 在技术上的先进性和创新性。同时，对训练框架的并行策略、FP8 混合精度训练及推理阶段的优化等内容的深入分析，展示了 DeepSeek 在提升效率和性能方面的不懈追求。

第4章关于 DeepSeek-R1 的技术剖析同样精彩纷呈。预备知识的介绍为读者理解后续内容打下了坚实的基础。对 DeepSeek-R1-Zero 的组相对策略优化（GRPO）算法、奖励模型等关键技术的深入剖析，可以帮助读者了解 DeepSeek 在强化学习领域的创新性探索。对DeepSeek-R1 的训练过程和推理能力的蒸馏等内容的详细阐述，能让读者对这一创新技术的特点有全面的认知。

第5章从宏观的角度分析 DeepSeek 对人工智能技术格局的影响，包括打破硬件依赖迷思、冲击英伟达 CUDA 护城河、引发大模型技术路线的重新思考等多个方面。同时，总结了DeepSeek 成功背后的启示，如领导者敏锐的技术直觉、长期主义的坚持、极致的工程优化等，为读者提供了宝贵的经验和启示。

第6章对 DeepSeek“开源周”的多个技术项目进行了深入的分析。通过对 FlashMLA、DeepEP、DeepGEMM、DualPipe 与 EPLB、3FS 等项目的介绍，展示了 DeepSeek 在开源领域的积极探索，体现了其推动大模型技术普及和发展的决心。这些技术项目的详细解读，能让读者了解 DeepSeek 在降低人工智能技术门槛、促进技术交流与合作方面的巨大贡献。

第7章对大模型的发展进行了讨论。从 MoE 的发展趋势、MLA 的展望，大模型的训练方法、推理部署，到 GPU 硬件及推理模型的发展趋势，以前瞻性的视角为读者描绘了大模型的发展蓝图。