DeepSeek开源第四弹并行计算优化三剑客发布_AI热点日报

DeepSeek开源第四弹并行计算优化三剑客发布

类型：热点整理2026-07-01

DeepSeek开源周第四天，直接亮出了并行计算优化的三把利器。这三个项目个个都精准击中了训练和推理效率的核心痛点，下面我们逐一深度解析。简单来说，本次发布的三大工具分别对应： DualPipe – 双向流水线并行算法，实现计算与通信的高效协同 EPLB – 专家并行负载均衡器，确保每块GPU都能

DeepSeek开源周第四天，直接亮出了并行计算优化的三把利器。这三个项目个个都精准击中了训练和推理效率的核心痛点，下面我们逐一深度解析。

简单来说，本次发布的三大工具分别对应：

DeepSeek开源第四弹放大招：一口气放出并行计算优化三剑客「训练速度，GPU利用，优化经验」

每个项目都直击大模型训练与推理的效率瓶颈，诚意十足，干货满满。

DualPipe是DeepSeek-AI在DeepSeek-V3技术报告中提出的创新双向流水线并行算法。它的核心优势在哪里？

计算-通信全重叠：传统流水线并行难免会出现“pipeline bubbles”（流水线气泡），导致GPU空转等待。DualPipe的精妙之处在于，它能让前向计算和后向计算的通信阶段完美交织，大幅减少气泡周期。
减少Pipeline Bubbles：通过巧妙的调度设计，DualPipe显著压缩了流水线气泡，GPU资源利用率直接拉满，训练效率倍增。

看看官方提供的Schedules图，简直堪称艺术品。清晰展示了8个PP ranks和20个micro-batches的调度策略，前向与后向计算对称进行，重叠区域一目了然。

再看看Pipeline Bubbles and Memory Usage Comparison表格，DualPipe对比1F1B和ZB1P，在减少气泡的同时，内存效率也表现亮眼，综合优势突出。

如果希望将DualPipe集成到自有项目中，DeepSeek-AI也贴心地提供了Quick Start指南和example.py示例代码。基于PyTorch 2.0+版本即可轻松上手，快速体验效果。

EPLB（Expert Parallelism Load Balancer）顾名思义，是专为专家并行（Expert Parallelism, EP）场景量身打造的负载均衡利器。

在EP中，不同专家模型会被分配到不同GPU上。但专家模型的负载可能随输入数据波动而变化，导致各GPU负载不均，从而影响整体效率。EPLB正是为解决这一痛点而生。

DeepSeek-V3采用了冗余专家（redundant experts）策略，复制高负载专家，并巧妙地将它们分配到不同GPU上，从而实现负载均衡。同时，结合group-limited expert routing技术，尽量将同一组的专家放在同一节点内，减少跨节点通信开销。

EPLB提供了两种负载均衡策略：

Hierarchical Load Balancing（分层负载均衡）：当服务器节点数能整除专家组数时使用。先平衡节点间的负载，再平衡节点内GPU的负载，适用于预填充（prefilling）阶段。
Global Load Balancing（全局负载均衡）：适用于其他情况。全局复制专家，然后分配到各个GPU，适用于解码（decoding）阶段。

项目提供了详细的Interface and Example，帮助你轻松理解如何使用eplb.rebalance_experts函数，根据专家权重、副本数、组数、节点数和GPU数，计算出最优的专家复制与放置方案。还有生动的placement plan图示，一目了然，操作简便。

DeepSeek直接公开了他们的训练（Training）和推理（Inference）框架的性能分析数据。这简直是手把手教你学优化，诚意满满。

这些数据使用PyTorch Profiler采集，下载后可直接在Chrome或Edge浏览器中通过chrome://tracing或edge://tracing打开，进行可视化分析。DeepSeek-AI还贴心地模拟了绝对平衡的MoE路由策略，便于性能对比研究。

项目提供了Training, Prefilling和Decoding三种场景的性能数据：

Training（训练）：展示了DualPipe在一对forward和backward chunks中的重叠策略。使用了4层MoE，EP64, TP1, 4K序列长度等DeepSeek-V3预训练设置。为简化分析，PP通信被排除在外。
Prefilling（预填充）：采用了EP32, TP1，4K提示长度，16K tokens/GPU的batch size。展示了如何利用两个micro-batches来重叠计算和all-to-all通信，并确保attention计算负载在两个micro-batches间保持平衡。
Decoding（解码）：采用了EP128, TP1, 4K提示长度，128 requests/GPU的batch size。同样使用两个micro-batches来重叠计算和all-to-all通信。但与prefilling不同的是，解码阶段的all-to-all通信不占用GPU SMs！RDMA消息发出后，GPU SMs立即释放，系统等待all-to-all通信完成后再继续计算，效率更高。

通过这些性能数据，你可以清晰看到DeepSeek-AI如何精细优化计算与通信，学习他们在底层实现上提升效率的实战经验。绝对是研究大模型并行计算的宝贵资料。

本次DeepSeek AI开源的三款项目，可以说是诚意十足，直接把大模型训练和推理的效率优化秘籍全盘托出，利好广大AI研究人员。

来源：https://www.53ai.com/news/OpenSourceLLM/2025022857163.html

ai 人工智能

补充最近整理过的热点入口。