DeepSeek开源高效专家并行通信库DeepEP_AI热点日报

DeepSeek开源高效专家并行通信库DeepEP

类型：热点整理2026-07-01

DeepEP：为混合专家模型（MoE）量身打造的高效通信库在大规模模型训练与推理中，混合专家（MoE）模型的通信效率一直是影响性能的关键瓶颈。本文要介绍的DeepEP，正是为解决这一难题而生的——一个专为专家并行（EP）场景优化的通信库。它通过精细的数据传输与资源调度机制，切实实现了降本增效。 D

DeepEP：为混合专家模型（MoE）量身打造的高效通信库

在大规模模型训练与推理中，混合专家（MoE）模型的通信效率一直是影响性能的关键瓶颈。本文要介绍的DeepEP，正是为解决这一难题而生的——一个专为专家并行（EP）场景优化的通信库。它通过精细的数据传输与资源调度机制，切实实现了降本增效。

DeepSeek开源DeepEP: 高效的专家并行通信库

DeepEP的核心思路清晰而高效：将全交换（all-to-all）操作优化至极致。其提供的高吞吐、低延迟GPU内核，专用于处理MoE中的调度（dispatch）与合并（combine）操作，并原生支持FP8等低精度计算格式。这意味着在相同算力条件下，能够支持更大规模的模型训练和更快速的迭代。

该方案包含多个值得关注的关键设计：

全对全通信优化：同时覆盖节点内NVLink高速互联与节点间RDMA网络。数据在各专家子网络间高效流转，彻底消除带宽瓶颈。
动态资源调控：基于组限门控（group-limited gating）算法，动态调整GPU计算单元（SM）的数量。高负载时自动分配更多资源，空闲时降低功耗，大幅减少资源浪费。
低精度原生支持：FP8格式从底层深度集成，内存占用与计算延迟均显著降低。对于数千卡规模的大规模分布式训练场景，这不仅节约硬件成本，更提升了整体效率。

更为关键的是，DeepEP针对DeepSeek-V3论文中提出的组限门控算法进行了定制优化。它提供了一系列针对非对称域带宽转发的高吞吐核心——例如将数据从NVLink域高效转发至RDMA域。这一设计对训练与推理预填充（prefilling）任务均十分友好，同时支持SM数量的灵活调控。

针对延迟敏感的推理解码场景，DeepEP还提供了一套基于纯RDMA的低延迟核心，将通信延迟降至最低。此外，它还引入了一种基于钩子（hook）的通信-计算重叠机制——值得注意的是，该机制完全不占用SM资源，堪称一次零成本的性能优化。

性能数据：实际测试结果

首先看常规内核的性能。测试基于H800 GPU平台，NVLink最大带宽约160 GB/s，搭配CX7 InfiniBand 400 Gb/s RDMA网卡（最大带宽约50 GB/s）。配置完全对标DeepSeek-V3/R1的预训练参数：每批次4096个令牌，隐藏层维度7168，前4组选择，前8位专家激活，调度采用FP8格式，合并采用BF16格式。

接下来看低延迟内核的表现。同样基于H800环境，配备CX7 InfiniBand网卡，但测试配置取自典型生产场景：每批次128个令牌，隐藏层维度7168，前8位专家激活，调度与合并同样采用FP8和BF16格式。

这两组数据充分验证了DeepEP在实际部署中的性能表现——吞吐量高，延迟低，且能灵活适应不同规模的负载。对于正在搭建或优化MoE训练集群的团队而言，这无疑是一个值得纳入工具箱的解决方案。

来源：https://www.53ai.com/news/OpenSourceLLM/2025022620316.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。