游乐游手机版
首页/AI热点日报/热点详情

DeepSeek开源第四弹并行计算优化三剑客发布

类型:热点整理2026-07-01
DeepSeek开源周第四天,直接亮出了并行计算优化的三把利器。这三个项目个个都精准击中了训练和推理效率的核心痛点,下面我们逐一深度解析。 简单来说,本次发布的三大工具分别对应: DualPipe – 双向流水线并行算法,实现计算与通信的高效协同 EPLB – 专家并行负载均衡器,确保每块GPU都能

DeepSeek开源周第四天,直接亮出了并行计算优化的三把利器。这三个项目个个都精准击中了训练和推理效率的核心痛点,下面我们逐一深度解析。

简单来说,本次发布的三大工具分别对应:

  • DualPipe – 双向流水线并行算法,实现计算与通信的高效协同
  • EPLB – 专家并行负载均衡器,确保每块GPU都能“雨露均沾”
  • profile-data – 性能分析数据,深入剖析V3/R1的并行奥秘

DeepSeek开源第四弹放大招:一口气放出并行计算优化三剑客「训练速度,GPU利用,优化经验」

每个项目都直击大模型训练与推理的效率瓶颈,诚意十足,干货满满。

DualPipe:双向流水线并行算法

项目地址:https://github.com/deepseek-ai/DualPipe

DualPipe是DeepSeek-AI在DeepSeek-V3技术报告中提出的创新双向流水线并行算法。它的核心优势在哪里?

  • 计算-通信全重叠:传统流水线并行难免会出现“pipeline bubbles”(流水线气泡),导致GPU空转等待。DualPipe的精妙之处在于,它能让前向计算和后向计算的通信阶段完美交织,大幅减少气泡周期。
  • 减少Pipeline Bubbles:通过巧妙的调度设计,DualPipe显著压缩了流水线气泡,GPU资源利用率直接拉满,训练效率倍增。

看看官方提供的Schedules图,简直堪称艺术品。清晰展示了8个PP ranks和20个micro-batches的调度策略,前向与后向计算对称进行,重叠区域一目了然。

再看看Pipeline Bubbles and Memory Usage Comparison表格,DualPipe对比1F1B和ZB1P,在减少气泡的同时,内存效率也表现亮眼,综合优势突出。

如果希望将DualPipe集成到自有项目中,DeepSeek-AI也贴心地提供了Quick Start指南和example.py示例代码。基于PyTorch 2.0+版本即可轻松上手,快速体验效果。

EPLB:专家并行负载均衡,让GPU各司其职

项目地址:https://github.com/deepseek-ai/eplb

EPLB(Expert Parallelism Load Balancer)顾名思义,是专为专家并行(Expert Parallelism, EP)场景量身打造的负载均衡利器。

在EP中,不同专家模型会被分配到不同GPU上。但专家模型的负载可能随输入数据波动而变化,导致各GPU负载不均,从而影响整体效率。EPLB正是为解决这一痛点而生。

DeepSeek-V3采用了冗余专家(redundant experts)策略,复制高负载专家,并巧妙地将它们分配到不同GPU上,从而实现负载均衡。同时,结合group-limited expert routing技术,尽量将同一组的专家放在同一节点内,减少跨节点通信开销。

EPLB提供了两种负载均衡策略:

  • Hierarchical Load Balancing(分层负载均衡):当服务器节点数能整除专家组数时使用。先平衡节点间的负载,再平衡节点内GPU的负载,适用于预填充(prefilling)阶段。
  • Global Load Balancing(全局负载均衡):适用于其他情况。全局复制专家,然后分配到各个GPU,适用于解码(decoding)阶段。

项目提供了详细的Interface and Example,帮助你轻松理解如何使用eplb.rebalance_experts函数,根据专家权重、副本数、组数、节点数和GPU数,计算出最优的专家复制与放置方案。还有生动的placement plan图示,一目了然,操作简便。

profile-data:性能分析数据,揭秘V3/R1并行策略

项目地址:https://github.com/deepseek-ai/profile-data

DeepSeek直接公开了他们的训练(Training)推理(Inference)框架的性能分析数据。这简直是手把手教你学优化,诚意满满。

这些数据使用PyTorch Profiler采集,下载后可直接在Chrome或Edge浏览器中通过chrome://tracingedge://tracing打开,进行可视化分析。DeepSeek-AI还贴心地模拟了绝对平衡的MoE路由策略,便于性能对比研究。

项目提供了Training, Prefilling和Decoding三种场景的性能数据:

  • Training(训练):展示了DualPipe在一对forward和backward chunks中的重叠策略。使用了4层MoE,EP64, TP1, 4K序列长度等DeepSeek-V3预训练设置。为简化分析,PP通信被排除在外。
  • Prefilling(预填充):采用了EP32, TP1,4K提示长度,16K tokens/GPU的batch size。展示了如何利用两个micro-batches来重叠计算和all-to-all通信,并确保attention计算负载在两个micro-batches间保持平衡。
  • Decoding(解码):采用了EP128, TP1, 4K提示长度,128 requests/GPU的batch size。同样使用两个micro-batches来重叠计算和all-to-all通信。但与prefilling不同的是,解码阶段的all-to-all通信不占用GPU SMs!RDMA消息发出后,GPU SMs立即释放,系统等待all-to-all通信完成后再继续计算,效率更高。

通过这些性能数据,你可以清晰看到DeepSeek-AI如何精细优化计算与通信,学习他们在底层实现上提升效率的实战经验。绝对是研究大模型并行计算的宝贵资料。

写在最后

本次DeepSeek AI开源的三款项目,可以说是诚意十足,直接把大模型训练和推理的效率优化秘籍全盘托出,利好广大AI研究人员。

  • DualPipe让你掌握高效流水线并行的核心技术,显著提升模型训练速度。
  • EPLB让你学会如何为专家并行模型进行负载均衡,最大化GPU利用率。
  • profile-data让你深入了解DeepSeek-V3的并行策略,借鉴顶尖团队的优化经验。
来源:https://www.53ai.com/news/OpenSourceLLM/2025022857163.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。