本次查询:稀疏激活
中文解释:稀疏激活
常见场景:大模型推理优化与高效部署
一句话解释
稀疏激活是指在模型推理时,不是让所有神经元或参数都参与计算,而是根据输入内容动态选择一小部分“专家”或通道进行激活,其余部分保持静默。这样模型可以做大,但每次推理只动小部分资源。
为什么会被关注
大模型参数动辄千亿,如果每次推理都激活全部参数,算力成本极高,普通硬件根本无法运行。稀疏激活让模型可以在保持巨大参数容量的同时,每次只激活少量参数(如1/16或1/32),使推理速度提升数倍,内存占用大幅下降,因此成为GPT-4等前沿模型的核心技术。
核心逻辑
其基础思想是“多路专家 + 路由选择”。模型内部有多个独立的神经网络模块(专家),一个轻量的路由器网络根据输入特征计算出各专家的权重,只选取权重最高的少数专家进行前向计算。未被选中的专家保持静默,不消耗算力和显存。这种动态非对称计算模式是稀疏激活区别于普通稠密模型的关键。
常见场景
最典型的场景是混合专家模型(MoE),如Mixtral 8x7B,它包含8个专家,每次只激活2个。另一个是稀疏注意力机制,在长文本处理中只关注部分关键token,而非全部,节省计算量。此外,一些多模态模型中也用稀疏激活来避免所有模态都全参数计算。
容易混淆的点
稀疏激活经常与模型剪枝混淆。剪枝是永久移除不需要的权重,而稀疏激活只是暂时不激活某些路径,参数仍然保留。另外,稀疏激活和稀疏训练也不同:训练阶段有时也会使用稀疏性,但稀疏激活特指推理时的动态选择。最后,注意不要与注意力掩码中的“稀疏模式”混淆,后者是固定结构,而非动态选择。
