游乐游手机版

AI 热词解释

首页/AI热词解释/热词详情

Top-2 Routing 是什么?大模型中的“二选一”专家分配策略

类型:技术概念2026-06-01
Top-2 Routing 是混合专家模型(MoE)中常用的一种稀疏门控路由策略,它从所有候选专家中选出与当前输入最匹配的两个专家来执行计算,从而在保持模型容量的同时大幅降低推理成本。

本次查询:Top-2 Routing

中文解释:前二路由

常见场景:大模型训练与推理

一句话解释

Top-2 Routing 是一种在混合专家模型(MoE)中使用的路由策略,它让输入只激活两个最相关的专家网络,而非全部专家,从而在不显著增加计算量的前提下扩大模型参数容量。

为什么会被关注

随着大模型参数规模激增,全连接层计算成本呈指数上升。Top-2 Routing 让模型可以拥有数千个专家,但每次推理只调用其中两个,极大降低了计算和显存开销。

Google 在 Switch Transformer 等工作中验证了 Top-2 相比 Top-1 能带来更好的性能稳定性和负载均衡效果,因此成为 MoE 架构的事实标准,受到学术界和工业界的广泛关注。

核心逻辑

Top-2 Routing 的核心是一个可学习的门控网络(Gating Network)。门控网络为每个专家计算一个匹配分数,然后选出分数最高的两个专家,将输入按加权方式分配给它们。

为了保持负载均衡,通常会引入辅助损失(auxiliary loss)惩罚专家被过度选中或完全闲置的情况。路由策略还涉及专家容量限制,防止某个专家接收过多 token 导致计算超限。

常见场景

在训练万亿参数级稀疏 MoE 语言模型(如 GLam、Switch Transformer、Mixtral 8x7B)时,Top-2 Routing 用于决定每个 token 应该送往哪两个专家。

在推理部署中,Top-2 Routing 配合专家并行(Expert Parallelism),可以将不同专家分配到不同 GPU,仅激活部分专家即可完成生成,显著降低显存和延迟。

容易混淆的点

Top-2 Routing 不等于“只使用两个专家”,而是每个输入只激活两个专家,模型整体参数仍包含所有专家。这与全连接层和采用 Top-1 路由的 MoE 不同。

有些人误以为 Top-2 就是简单地将输入复制给两个专家然后取平均,实际上门控网络会学习动态权重,两个专家的输出是按权重融合的,并非简单平均。

负载均衡损失是 Top-2 Routing 成功的关键,而非可选。没有负载均衡的 MoE 容易导致专家坍塌(所有 token 都涌向同一个专家),丧失稀疏优势。

来源:AI 热词解释频道整理
上一篇专家路由:让大模型像专业团队一样分工协作 下一篇Router Loss:网络延迟与AI智能运维的核心指标

相关热词

继续查看关联概念解释。

最新热词

最近新增和整理过的热词内容。