一文搞懂深度求索混合专家模型MoE架构原理_AI热点日报

一文搞懂深度求索混合专家模型MoE架构原理

类型：热点整理2026-06-29

让我们先了解DeepSeek-V3的几个关键特性：总参数量高达6710亿，但每个token仅激活370亿参数。这种设计有何意义？它可以用更少的计算资源，撬动更大的模型能力。而背后的核心技术，正是混合专家（MoE）架构。 DeepSeek-V3在架构上继承了DeepSeek-V2已充分验证的多头潜在注

让我们先了解DeepSeek-V3的几个关键特性：总参数量高达6710亿，但每个token仅激活370亿参数。这种设计有何意义？它可以用更少的计算资源，撬动更大的模型能力。而背后的核心技术，正是混合专家（MoE）架构。

一文搞懂DeepSeek - 混合专家（MoE）

DeepSeek-V3在架构上继承了DeepSeek-V2已充分验证的多头潜在注意力（MLA）和DeepSeekMoE方案，目标非常清晰：在低成本训练的同时实现高效推理。它使用了14.8万亿个精心筛选的高质量token进行训练，并经过监督微调与强化学习两个阶段，最终充分释放了模型潜力。训练成本仅为278.8万H800 GPU小时——在同类模型中堪称“性价比之王”，而且训练过程极其稳定，最终性能足以媲美那些闭源顶级模型。

一、混合专家（MoE）的核心逻辑

什么是混合专家（MoE）？

简单来说，MoE将一个大模型拆分成多个“专家”子模型，每个专家擅长处理特定类型的输入。关键在于门控网络——它像一个智能路由器，判断当前问题应该交由哪个专家处理。这样，每次执行任务时，模型不会激活所有参数，而只调用最相关的几个专家，计算效率因此大幅提升。GPT-4就是一个典型例子：它包含16个专家，每个专家1110亿参数，另有一个550亿参数的注意力共享层，总参数达1.831万亿。但实际推理时，只有部分专家被激活，这正是MoE的精髓所在。

二、DeepSeekMoE：不止是堆参数

DeepSeekMoE模型的设计亮点

DeepSeekMoE在传统MoE基础上进行了多项关键改进。首先，在专家混合系统层引入了动态路由机制和专家共享机制：动态路由使模型根据输入特点灵活选择专家，而非机械地全部激活；专家共享则让不同层或不同token之间共用部分参数，既减少冗余又提升性能。其次，加入了MLA机制——利用潜在向量缓存自回归推理中的中间结果，大幅降低浮点运算量，同时通过预计算并复用静态键值进一步优化缓存。最后，归一化层替换为RMSNorm——仅使用均方根统计进行缩放，计算量远小于传统LayerNorm，且训练更稳定。

多头潜在注意力（MLA）与多头注意力（MHA）的区别

MLA和MHA的核心差异主要体现在两方面。第一，低秩联合压缩键值：MLA将Key和Value压缩为一个潜在向量，显著减少缓存容量，同时降低计算复杂度。第二，键值缓存优化：MHA在推理时需缓存独立的Key和Value矩阵，内存开销较大；而MLA通过低秩矩阵分解技术，大幅降低了存储的KV维度，从而减少内存占用。尽管MLA在计算注意力时仍保留多头计算方式（通过投影获取多头的Key和Value），但整体效率已截然不同。

来源：https://www.53ai.com/news/LargeLanguageModel/2025020493158.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。