DeepEP:为混合专家模型(MoE)量身打造的高效通信库
在大规模模型训练与推理中,混合专家(MoE)模型的通信效率一直是影响性能的关键瓶颈。本文要介绍的DeepEP,正是为解决这一难题而生的——一个专为专家并行(EP)场景优化的通信库。它通过精细的数据传输与资源调度机制,切实实现了降本增效。

DeepEP的核心思路清晰而高效:将全交换(all-to-all)操作优化至极致。其提供的高吞吐、低延迟GPU内核,专用于处理MoE中的调度(dispatch)与合并(combine)操作,并原生支持FP8等低精度计算格式。这意味着在相同算力条件下,能够支持更大规模的模型训练和更快速的迭代。
该方案包含多个值得关注的关键设计:
- 全对全通信优化:同时覆盖节点内NVLink高速互联与节点间RDMA网络。数据在各专家子网络间高效流转,彻底消除带宽瓶颈。
- 动态资源调控:基于组限门控(group-limited gating)算法,动态调整GPU计算单元(SM)的数量。高负载时自动分配更多资源,空闲时降低功耗,大幅减少资源浪费。
- 低精度原生支持:FP8格式从底层深度集成,内存占用与计算延迟均显著降低。对于数千卡规模的大规模分布式训练场景,这不仅节约硬件成本,更提升了整体效率。
更为关键的是,DeepEP针对DeepSeek-V3论文中提出的组限门控算法进行了定制优化。它提供了一系列针对非对称域带宽转发的高吞吐核心——例如将数据从NVLink域高效转发至RDMA域。这一设计对训练与推理预填充(prefilling)任务均十分友好,同时支持SM数量的灵活调控。
针对延迟敏感的推理解码场景,DeepEP还提供了一套基于纯RDMA的低延迟核心,将通信延迟降至最低。此外,它还引入了一种基于钩子(hook)的通信-计算重叠机制——值得注意的是,该机制完全不占用SM资源,堪称一次零成本的性能优化。
性能数据:实际测试结果
首先看常规内核的性能。测试基于H800 GPU平台,NVLink最大带宽约160 GB/s,搭配CX7 InfiniBand 400 Gb/s RDMA网卡(最大带宽约50 GB/s)。配置完全对标DeepSeek-V3/R1的预训练参数:每批次4096个令牌,隐藏层维度7168,前4组选择,前8位专家激活,调度采用FP8格式,合并采用BF16格式。
接下来看低延迟内核的表现。同样基于H800环境,配备CX7 InfiniBand网卡,但测试配置取自典型生产场景:每批次128个令牌,隐藏层维度7168,前8位专家激活,调度与合并同样采用FP8和BF16格式。
这两组数据充分验证了DeepEP在实际部署中的性能表现——吞吐量高,延迟低,且能灵活适应不同规模的负载。对于正在搭建或优化MoE训练集群的团队而言,这无疑是一个值得纳入工具箱的解决方案。
