稀疏激活：大模型如何只动用一部分“脑细胞”完成推理_AI热词解释_游乐网

稀疏激活：大模型如何只动用一部分“脑细胞”完成推理

类型：技术概念2026-06-01

稀疏激活是一种让深度学习模型在推理时只激活部分神经元或参数的技术，常见于混合专家模型（MoE）和稀疏注意力。它通过动态选择计算路径，在保持模型容量的同时大幅降低计算量和内存占用，是大模型高效部署的关键技术之一。

本次查询：稀疏激活

中文解释：稀疏激活

常见场景：大模型推理优化与高效部署

稀疏激活是指在模型推理时，不是让所有神经元或参数都参与计算，而是根据输入内容动态选择一小部分“专家”或通道进行激活，其余部分保持静默。这样模型可以做大，但每次推理只动小部分资源。

大模型参数动辄千亿，如果每次推理都激活全部参数，算力成本极高，普通硬件根本无法运行。稀疏激活让模型可以在保持巨大参数容量的同时，每次只激活少量参数（如1/16或1/32），使推理速度提升数倍，内存占用大幅下降，因此成为GPT-4等前沿模型的核心技术。

其基础思想是“多路专家 + 路由选择”。模型内部有多个独立的神经网络模块（专家），一个轻量的路由器网络根据输入特征计算出各专家的权重，只选取权重最高的少数专家进行前向计算。未被选中的专家保持静默，不消耗算力和显存。这种动态非对称计算模式是稀疏激活区别于普通稠密模型的关键。

最典型的场景是混合专家模型（MoE），如Mixtral 8x7B，它包含8个专家，每次只激活2个。另一个是稀疏注意力机制，在长文本处理中只关注部分关键token，而非全部，节省计算量。此外，一些多模态模型中也用稀疏激活来避免所有模态都全参数计算。

稀疏激活经常与模型剪枝混淆。剪枝是永久移除不需要的权重，而稀疏激活只是暂时不激活某些路径，参数仍然保留。另外，稀疏激活和稀疏训练也不同：训练阶段有时也会使用稀疏性，但稀疏激活特指推理时的动态选择。最后，注意不要与注意力掩码中的“稀疏模式”混淆，后者是固定结构，而非动态选择。

来源：AI 热词解释频道整理

稀疏激活 MoE 稀疏注意力混合专家模型条件计算