本次查询:Mixture-of-Depths
中文解释:深度混合
常见场景:大规模语言模型训练与推理 / 长文档理解 / 视频分析 / 实时语音处理等需要高效计算的任务
一句话解释
Mixture-of-Depths 是一种让神经网络根据每个输入样本的复杂程度,自动决定需要计算多少层深度输出的技术。简单来说,不是所有输入都得走完所有层,简单样本可以“抄近道”,复杂样本才走完整路径。
为什么会被关注
随着大模型参数量急剧膨胀,计算成本成了主要瓶颈。传统模型每条数据必须计算所有层,导致大量无效计算。MoD 能显著减少训练和推理时的 FLOPs(浮点运算次数),在保持精度前提下将速度提升 2~3 倍,同时降低显存占用。这使它成为继 MoE 之后又一个被业界看好的高效架构方向。
核心逻辑
MoD 的核心是引入一个“路由选择器”,在每一层或每隔几层判断当前样本是否需要继续深入。如果样本特征已经足够清晰,选择器就让它直接跳过后面的层,输出中间状态;否则继续向下传递。这与 MoE 的“选择专家”思路类似,但 MoD 在深度维度做选择,MoE 在宽度维度做选择。两者的结合(MoDE)也正在被探索。
常见场景
在长文档摘要任务中,冗长的文本往往只有部分关键句需要深层语义理解,MoD 让不重要段落快速跳过,节省计算。在实时语音识别中,静音段或简单音节可以直接输出浅层结果。在视频帧分析中,画面变化小的连续帧可以共用浅层特征,大幅降低整体算力消耗。
容易混淆的点
MoD 经常被和 MoE(Mixture-of-Experts)混淆。MoE 是在同一层内选择不同的专家子网络来并行处理,本质是扩展网络宽度;而 MoD 是在不同层之间选择是否继续向下计算,本质是控制网络深度。另一个易混概念是“早退”(Early Exit),早退通常是在模型末端提前输出,MoD 则可以在任意中间层跳过后续层,更灵活。
