游乐游手机版
首页/AI热点日报/热点详情

一文搞懂深度求索混合专家模型MoE架构原理

类型:热点整理2026-06-29
让我们先了解DeepSeek-V3的几个关键特性:总参数量高达6710亿,但每个token仅激活370亿参数。这种设计有何意义?它可以用更少的计算资源,撬动更大的模型能力。而背后的核心技术,正是混合专家(MoE)架构。 DeepSeek-V3在架构上继承了DeepSeek-V2已充分验证的多头潜在注

让我们先了解DeepSeek-V3的几个关键特性:总参数量高达6710亿,但每个token仅激活370亿参数。这种设计有何意义?它可以用更少的计算资源,撬动更大的模型能力。而背后的核心技术,正是混合专家(MoE)架构。

一文搞懂DeepSeek - 混合专家(MoE)

DeepSeek-V3在架构上继承了DeepSeek-V2已充分验证的多头潜在注意力(MLA)和DeepSeekMoE方案,目标非常清晰:在低成本训练的同时实现高效推理。它使用了14.8万亿个精心筛选的高质量token进行训练,并经过监督微调与强化学习两个阶段,最终充分释放了模型潜力。训练成本仅为278.8万H800 GPU小时——在同类模型中堪称“性价比之王”,而且训练过程极其稳定,最终性能足以媲美那些闭源顶级模型。

一、混合专家(MoE)的核心逻辑

什么是混合专家(MoE)?

简单来说,MoE将一个大模型拆分成多个“专家”子模型,每个专家擅长处理特定类型的输入。关键在于门控网络——它像一个智能路由器,判断当前问题应该交由哪个专家处理。这样,每次执行任务时,模型不会激活所有参数,而只调用最相关的几个专家,计算效率因此大幅提升。GPT-4就是一个典型例子:它包含16个专家,每个专家1110亿参数,另有一个550亿参数的注意力共享层,总参数达1.831万亿。但实际推理时,只有部分专家被激活,这正是MoE的精髓所在。

二、DeepSeekMoE:不止是堆参数

DeepSeekMoE模型的设计亮点

DeepSeekMoE在传统MoE基础上进行了多项关键改进。首先,在专家混合系统层引入了动态路由机制和专家共享机制:动态路由使模型根据输入特点灵活选择专家,而非机械地全部激活;专家共享则让不同层或不同token之间共用部分参数,既减少冗余又提升性能。其次,加入了MLA机制——利用潜在向量缓存自回归推理中的中间结果,大幅降低浮点运算量,同时通过预计算并复用静态键值进一步优化缓存。最后,归一化层替换为RMSNorm——仅使用均方根统计进行缩放,计算量远小于传统LayerNorm,且训练更稳定。

多头潜在注意力(MLA)与多头注意力(MHA)的区别

MLA和MHA的核心差异主要体现在两方面。第一,低秩联合压缩键值:MLA将Key和Value压缩为一个潜在向量,显著减少缓存容量,同时降低计算复杂度。第二,键值缓存优化:MHA在推理时需缓存独立的Key和Value矩阵,内存开销较大;而MLA通过低秩矩阵分解技术,大幅降低了存储的KV维度,从而减少内存占用。尽管MLA在计算注意力时仍保留多头计算方式(通过投影获取多头的Key和Value),但整体效率已截然不同。

来源:https://www.53ai.com/news/LargeLanguageModel/2025020493158.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。