DeepSpeed v0.19.1 更新：性能优化、稳定性修复与功能增强详解

时间：2026-05-30 09:39

DeepSpeed v0 19 1 的动作比许多人预想的更为迅速。该版本于 2026 年 5 月 28 日正式发布，虽然官方并未冠以“大版本重构”的名号，但仔细翻阅更新日志便会发现，此次改动覆盖面极广——分布式通信、ZeRO、IO、Attention、编译兼容性、优化器、测试稳定性、GitHub A

DeepSpeed v0.19.1 的动作比许多人预想的更为迅速。该版本于 2026 年 5 月 28 日正式发布，虽然官方并未冠以“大版本重构”的名号，但仔细翻阅更新日志便会发现，此次改动覆盖面极广——分布式通信、ZeRO、IO、Attention、编译兼容性、优化器、测试稳定性、GitHub Actions、依赖配置等多个核心模块均被触及。对于正在使用 DeepSpeed 开展大规模训练、推理、优化器 offload、ZeRO-3、FPDT attention，或正积极适配 PyTorch 新功能的用户而言，这个版本值得深入研读。

首先给出几个核心判断：

更稳定：修复了多处崩溃、挂起、文件描述符泄漏以及脚本安全问题；
更高效：优化了 singleton MoE collectives，新增 zero3 SDMA allgather，改进了 attention 相关兼容性；
更兼容：支持 torch.func、vmap、PyTorch >= v2.11、flash-attn 2.7.0、bf16 optimizer states 与 CPU offload 配合使用；
更易维护：补全了 README、统一了 GitHub Actions 任务命名、调整了测试预期、整理了编译参数。

下文按模块逐项展开，帮助读者全面理解本次更新的重点内容。

一、版本信息与发布概览

DeepSpeed v0.19.1 发布于 2026 年 5 月 28 日。本次更新共有 18 位贡献者参与，累计 22 次提交，涉及 70 个文件变更。从这些数据可以判断，这并非针对某个孤立问题的热修复，而是对多个模块进行的一次集中修复与优化。此外，提交内容既涵盖了面向训练性能的改进，也包括面向工程稳定性的修复，以及面向生态兼容性的适配——方向十分全面。

二、本次版本更新的核心方向

v0.19.1 的更新可概括为四个方向：

1. 性能优化

优化 singleton MoE collectives；
zero3: SDMA allgather via mori；
在 FPDT attention 中支持 flash-attn 2.7.0。

这些变化表明，DeepSpeed 在分布式训练与 attention 加速方面持续加码。

2. 稳定性修复

修复 FastFileWriter aio_fd 泄漏；
修复 ZeRO-3 forward 崩溃；
修复 test_zf.py 挂起；
修复 gemma4 attention head 错误。

这些修复对于实际训练任务至关重要——它们直接影响长时间运行任务的稳定性。

3. 兼容性增强

自动检测 EvoformerAttention 的 CUTLASS 支持；
支持 bf16 optimizer states 与 CPU offload 配合使用；
添加 setup_context 以兼容 torch.func；
在 LinearFunctionForZeroStage3 上启用 vmap；
修复 DeepCompile AOT kwargs patching 以适配 PyTorch >= v2.11。

这部分更新特别适合正在跟进 PyTorch 新版本、函数式 API、向量化以及混合精度训练的用户。

4. 工程维护与安全改进

在 data_analyzer.py 中用 subprocess 替换 os.system；
调整测试预期；
统一 GitHub Actions 任务名称；
修正版本后置更新；
在 README 中添加 office hours 时间与链接；
整理 -gencode 标志。

这些变更虽不直接影响训练吞吐量，但对代码维护、安全性和 CI 稳定性意义重大。

三、逐项更新内容详解

下面按照版本更新列表逐条展开说明。

1. Update version post-v0.19.0 release

标准的版本号后续更新，属于常规版本推进。这表明项目在 v0.19.0 发布后，继续推进 v0.19.1 的版本整理与发布节奏。

2. Add office hours times/link on the README

此次在 README 中补充了 office hours 的时间与链接。这种更新对开源用户而言是实实在在的便利——能更快找到项目交流入口，减少信息检索成本。

3. Update topkgating probability-mask test expectation

对 topkgating 的 probability-mask 测试预期进行了调整。看似仅为数值调整，实则反映了相关逻辑或输出行为已发生变化，测试据此修正以保持一致性。

4. Optimize singleton MoE collectives

这是一项值得高度关注的性能优化。MoE 训练在大模型场景中日益普遍，而 singleton MoE collectives 的优化意味着针对这类通信/集合操作做出了明显改进。对于使用 MoE 架构的用户而言，此项具有直接的性能价值。

5. zero3: SDMA allgather via mori (sdma_allgather)

发生在 ZeRO-3 相关路径上，核心是通过 mori 实现 SDMA allgather。从命名看，这是针对 zero3 的集合通信方式进行了增强，目标显然是优化 allgather 过程。对 ZeRO-3 用户来说，通常意味着更高效的数据聚合、更优的通信路径利用，以及有望降低训练瓶颈。

6. fix(io): close aio_fd in FastFileWriter._fini to prevent fd leak

这是一项典型且重要的稳定性修复。在 FastFileWriter._fini 中关闭 aio_fd，防止文件描述符泄漏。文件描述符泄漏若长期存在，会导致进程打开文件数持续上升、长时间运行任务异常、资源耗尽、IO 性能下降。此类 bug 在大规模训练、长时间数据写入或多任务 IO 场景中更容易暴露，本次修复非常实用。

7. Auto-detect CUTLASS for EvoformerAttention

为 EvoformerAttention 增加了对 CUTLASS 的自动检测能力。系统可在运行时自动判断 CUTLASS 是否可用，从而决定是否启用相关能力。好处显而易见：降低手工配置负担、提升环境适配能力、减少因依赖缺失导致的错误。使用 EvoformerAttention 的用户将获得更顺畅的部署与运行体验。

8. fix: use subprocess instead of os.system in data_analyzer.py

这是一项工程安全与规范性改进。在 data_analyzer.py 中用 subprocess 替代 os.system。subprocess 比 os.system 更灵活、更可控，更适合处理命令执行相关逻辑。此类修复通常会带来更好的命令执行控制、更清晰的错误处理以及更规范的脚本实现方式。

9. Fix ZeRO-3 forward crash on modules with plain dict _parameters

一项非常关键的运行时崩溃修复。问题出现在 ZeRO-3 forward 过程中，当模块的 _parameters 为普通 dict 时会触发崩溃。这说明 ZeRO-3 在处理某些模块结构时存在兼容问题。修复后能够避免 forward 阶段直接崩溃、提升对不同模块结构的适配能力、减少训练中断风险。对于实际使用 ZeRO-3 进行大模型训练的用户而言，这类修复直接影响“能否正常跑通”。

10. Remove stale step() docstring from DeepSpeedCPUAdam

文档清理类更新。从 DeepSpeedCPUAdam 中移除了过时的 step() 文档字符串。虽然不影响功能，但此类清理对保持 API 文档准确性很有意义——减少误导、提高维护效率、保持代码与文档一致。

11. Add configurable torch-latest dependency versions

增加了可配置的 torch-latest 依赖版本。这说明项目对 PyTorch 最新依赖的支持变得更为灵活，用户或维护者可根据需要调整版本配置。此类变化对环境适配、持续集成、版本回归测试都很有帮助。

12. Run FastFileWriter fd-close test outside pytest-forked

调整了测试运行方式，将 FastFileWriter 的 fd-close 测试移出 pytest-forked。这属于测试执行稳定性优化，说明原本的测试环境可能存在 fork 相关影响，因此将测试移至更合适的执行上下文中。目的是让测试结果更可靠、减少测试挂起或假失败、提高 CI 稳定性。

13. Make GitHub Actions job names unique

CI 维护改进。将 GitHub Actions 的任务名称改为唯一，避免命名冲突。此类问题在复杂流水线中很常见，单一命名可提升日志可读性、避免任务识别混乱、改善自动化流程管理。

14. Support bf16 optimizer states with CPU offload

非常实用的训练能力增强。DeepSpeed 现在支持在 CPU offload 场景下使用 bf16 optimizer states。这意味着当使用 CPU offload 进行优化器状态管理时，bf16 相关状态也能得到支持。对于混合精度训练和大模型显存优化场景，这是很有价值的更新。用户可获得更好的显存/内存管理、更灵活的精度配置，以及更适合大规模训练的状态存储方式。

15. [fix] fix test_zf.py hang bug

测试挂起问题修复。test_zf.py 存在 hang bug，本次进行了修复。测试 hang 往往会严重影响 CI 和开发效率——导致测试流水线卡死、难以定位问题、阻塞后续验证流程。修复此类问题有助于提升整个项目的测试可靠性。

16. [Blog] Muon Optimizer Support in DeepSpeed

一篇关于 Muon Optimizer Support 的博客内容。虽非核心代码修复，但作为版本更新的一部分，说明项目在优化器支持方面有进一步说明与传播。对用户而言，这意味着 DeepSpeed 在优化器生态方面持续扩展。

17. fix gemma4 num attention head bugs

针对 gemma4 的 attention head 数量 bug 修复。attention head 配置错误会直接影响模型结构和注意力计算正确性，这是一项很重要的模型适配修复。修复后可减少配置错误带来的异常、attention 维度不一致问题，以及模型推理或训练过程中的潜在错误。

18. fix: add setup_context for torch.func compatibility

新增了 setup_context，以提升与 torch.func 的兼容性。torch.func 是 PyTorch 中与函数式编程和变换相关的重要接口，兼容性更新意味着 DeepSpeed 在这类 API 场景下可以更好地运行。此类修复通常影响函数式变换、自动微分相关流程，以及与 PyTorch 新接口的适配。对于依赖 torch.func 的用户来说，这是非常关键的兼容性增强。

19. Sort and dedupe -gencode flags emitted by op_builder.builder

对 op_builder.builder 输出的 -gencode 标志进行了排序和去重。这是一项偏底层的构建参数整理工作，意义在于减少重复编译参数、提高构建输出一致性、降低潜在编译冲突。此类更新虽不显眼，但对编译稳定性和构建可维护性很有帮助。

20. fix(zero): enable vmap on LinearFunctionForZeroStage3

ZeRO Stage 3 路径上的兼容性增强。让 LinearFunctionForZeroStage3 支持 vmap。vmap 通常与批量向量化变换有关，开启支持后，该函数在向量化场景下可以更好地工作。对于追求更灵活 PyTorch API 使用方式的用户来说非常重要。

21. Support flash-attn 2.7.0 in FPDT attention

在 FPDT attention 中支持使用 flash-attn 2.7.0。flash-attn 本身就是 attention 加速领域的重要组件，版本兼容提升意味着 DeepSpeed 能更好适配相关生态。此项更新可能带来更广泛的版本支持、更顺畅的 attention 加速接入，以及更少的版本兼容问题。

22. Fix DeepCompile AOT kwargs patching for PyTorch >= v2.11

对 DeepCompile AOT kwargs patching 进行了修复，目标是兼容 PyTorch v2.11 及以上版本。随着 PyTorch 不断更新，内部 API 或行为变化可能导致 patch 逻辑失效，因此需要同步修复。这一项更新至关重要，因为它确保 DeepSpeed 在较新 PyTorch 版本下仍能正常工作，减少版本升级带来的问题。

四、从这些更新看 DeepSpeed v0.19.1 的实际价值

如果要将本次更新总结为一句话：DeepSpeed v0.19.1 并非一次单点修复，而是一次围绕训练稳定性、通信效率、兼容性和工程可维护性的集中增强。

它对以下用户群体尤其有价值：

1. 使用 ZeRO-3 的用户

你会关注：forward crash 修复、SDMA allgather 优化、vmap 支持。

2. 使用 MoE 的用户

你会关注：singleton MoE collectives 优化、相关测试预期调整。

3. 使用 CPU offload 的用户

你会关注：bf16 optimizer states 支持。

4. 使用 attention 加速的用户

你会关注：EvoformerAttention 自动检测 CUTLASS、FPDT attention 支持 flash-attn 2.7.0、gemma4 attention head bug 修复。

5. 关注 PyTorch 新版本适配的用户

你会关注：torch.func compatibility、vmap on LinearFunctionForZeroStage3、PyTorch >= v2.11 的 AOT patch 修复、configurable torch-latest dependency versions。

6. 关注稳定性和工程质量的用户

你会关注：FastFileWriter fd 泄漏修复、test hang 修复、subprocess 替代 os.system、GitHub Actions job name 唯一化、-gencode 标志整理。

五、这次更新最值得注意的几个关键词

如果只想抓重点，记住这几个关键词就够了：

稳定性：fd leak、crash、hang、测试修复；
性能：MoE collectives、SDMA allgather、flash-attn 2.7.0；
兼容性：torch.func、vmap、PyTorch >= v2.11、bf16 offload；
工程化：subprocess、CI job names、README、依赖配置；
底层构建：-gencode 标志去重排序、CUTLASS 自动检测。

这些关键词几乎覆盖了 DeepSpeed v0.19.1 的全部重点。

六、总结

DeepSpeed v0.19.1 的发布体现了一个明显的趋势：不再单纯追求新增功能，而是同步关注性能、稳定性、兼容性和工程质量。此次更新中，既有面向分布式训练效率的优化，也有防止崩溃、泄漏和挂起的修复；既有对新版本 PyTorch 的适配，也有对 Attention、MoE、ZeRO-3、CPU offload 等关键路径的增强。对于实际生产环境而言，这样的版本升级往往比“单纯增加功能”更有价值——它直接关系到训练任务能否稳定且高效地持续运行。

来源：https://cloud.tencent.com.cn/developer/article/2676442

版本更新

上一篇红墨智能高效一站式小红书图文自动生成器 下一篇PNAS｜AI设计小蛋白抑制剂为δ冠状病毒提前备药

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。