英伟达世界模型训练提速400% 一周完成一月工作量

时间：2026-05-26 12:42

在通往通用人工智能的道路上，世界模型被视为让AI真正理解并预测物理世界的关键拼图。近期，英伟达发布的世界动作模型DreamZero在两项机器人基准测试中双双登顶，引发了具身智能领域的广泛关注。与传统的视觉语言动作模型不同，DreamZero将视频这一包含完整时空信息的载体作为核心学习材料。它遵循“

在通往通用人工智能的道路上，世界模型被视为让AI真正理解并预测物理世界的关键拼图。近期，英伟达发布的世界动作模型DreamZero在两项机器人基准测试中双双登顶，引发了具身智能领域的广泛关注。

与传统的视觉语言动作模型不同，DreamZero将视频这一包含完整时空信息的载体作为核心学习材料。它遵循“先理解世界如何变化，再决定自己如何行动”的模式，从而天然地从互联网视频中汲取了海量的物理经验。这种范式革新，使得模型不再依赖大量重复演示来学习单一动作，而是能从多样化的数据中抽象出物理规律，进而在从未见过的环境和任务中保持稳定的执行能力。

上表直观展示了DreamZero模型相比当前最优开源VLA模型π0.5的显著优势。在任务成功率、泛化性、后训练提升效果以及跨真机本体的适应性等多个维度，DreamZero均实现了超过2倍的性能提升。这不仅大幅降低了技能学习的数据成本，也为机器人的形态适配与快速部署扫清了障碍。

然而，以扩散模型架构为主体的世界动作模型，也给算力和显存带来了前所未有的挑战。根据最新开源的训练代码，使用8台H100 GPU训练2.475亿帧数据，完整周期长达25天。高昂的训练成本与时间消耗，成为行业复现和深入研究的主要门槛。

为了推动前沿研究更高效地落地，无问芯穹与清华大学等机构联合推出的大规模强化学习框架RLinf，现已正式提供对DreamZero训练的深度支持。其目标不止于功能适配，更在于通过深度的系统级优化，重构并加速整个训练管线。相比官方提供的最新基线脚本，RLinf成功实现了近4倍的训练吞吐加速，同时保持了优异的收敛效果。

那么，RLinf是如何极致压榨GPU算力，达成这一性能飞跃的？接下来，我们将深入拆解其背后的核心优化逻辑。

核心揭秘：近4倍加速背后的三大优化维度

为了突破现有训练脚本的性能瓶颈，RLinf系统优化团队从计算图、并行策略与全局参数调优、以及数据处理管线三个维度进行了深度重构。

极致的算子与计算图优化：Torch Compile + CUDA Graph

Python层面的算子调用与调度开销，常常是限制GPU达到峰值性能的“隐形杀手”。RLinf深度融合了torch.compile与CUDA Graph两项技术：

Torch Compile：通过底层编译优化，对算子进行深度融合，特别是针对WanRMSNorm、adaLN-zero等扩散模型架构中的低效算子进行了重点优化。

CUDA Graph：将计算图固化，消除了GPU内核启动时的CPU调度瓶颈。这在DreamZero训练中尤为有效，因为其CausalWanSelfAttention部分的核函数启动非常密集。

通过这项优化，DreamZero的5B和14B模型在保持原有微批次大小配置下，单步训练时间分别降低了50%和34%，为后续优化奠定了坚实基础。

计算与显存的联合优化：解锁全方位性能调优空间

灵活的微批次大小设置、多样的并行策略以及激活重计算，是大模型训练中必不可少的调优手段。然而，DreamZero的最新基线存在一些工程局限，例如默认使用性能较低的DeepSpeed ZeRO2 offload模式，图像编码器未能有效批处理等，限制了性能提升的空间。

RLinf团队从底层工程入手，彻底解决了这些痛点，构建了一套健壮且高度可配置的调优体系：

稳定适配FSDP2：FSDP2是PyTorch团队推出的最新零冗余优化器实现。RLinf成功将训练后端迁移至FSDP2，解决了原有DeepSpeed方案中因ZeRO3与VAE模块冲突而被迫降级的问题，同时避免了反向传播阶段的额外CPU开销，让用户可以根据显存灵活选择分片策略。

释放微批次大小的灵活性：RLinf解决了微批次大小大于1时，与激活重计算、FSDP2策略组合产生的复杂兼容性问题，并实现了图像编码器的高效批处理。这使得用户能够根据硬件显存，自由配置微批次大小，在显存占用与计算效率间找到最佳平衡。例如，对于5B模型，将微批次大小从1提升到2，吞吐量增加了85%，而单步耗时几乎不变。

激活重计算与加速算子的深度协同：通过底层工程优化，RLinf实现了激活重计算机制与CUDA Graph、FSDP2的稳定解耦与协同。这使得激活重计算成为一个可靠、可量化的显存优化工具。在显存受限时，能以微小的计算代价换取显著的显存释放，从而支持更大的并行规模。在5B模型训练中，开启此功能后，单卡微批次大小可提升至32，最终使同等算力下的吞吐提升了158%。

通过以上在并行策略、微批次大小和激活重计算方面的全局调优，RLinf在5B模型训练上，于第一项算子优化的基础上，进一步将性能提升了266%。

突破I/O吞吐瓶颈：构建高效视频数据处理管线

当计算密度被大幅提升后，数据加载效率便成为新的性能瓶颈。DreamZero训练中，视频解码与预处理极其消耗CPU资源。

传统方案（如PyA V）的解码性能难以支撑高吞吐需求；而盲目增加数据加载进程数量，又会剧烈抢占CPU资源，导致GPU内核下发延迟，反而拖慢整体训练。

为了在解码速度与系统开销间找到最优解，RLinf团队对主流视频处理库进行了深度性能评估：

评估发现，虽然Decord在纯解码速度上略有优势，但Torchcodec在保持相近性能的同时，表现出更稳定的CPU占用。这为训练主线程预留了充足的计算余量，使得系统能够支持更多并发数据加载进程。

相比原生的PyA V方案，单个视频解码时间缩短了近400毫秒。在DreamZero多视角（左、右、腕部视角）的训练场景下，累计节省解码时间达1.2秒。这项I/O端的优化，为持续压榨GPU计算潜力提供了源源不断的“数据弹药”。

性能实测：从“能跑通”到“极致高效”的端到端跃迁

为了验证上述多维优化的综合成效，我们在Droid数据集上对DreamZero不同规模的模型进行了端到端测试。

DreamZero-14B：大参数量下的吞吐飞跃
对于140亿参数的大模型，显存压力巨大。原基线通常被迫采用DeepSpeed ZeRO-offload方案，导致了严重的计算/通信浪费与CPU换入换出开销。RLinf方案相比原生DeepSpeed实现了2.7倍的加速；即便与未经优化的FSDP2基线相比，吞吐量也进一步提升了35%。

DreamZero-5B：算力密度的极致压榨
对于50亿参数的中等规模模型，RLinf的优势在于能够通过高效率的激活重计算稳定开启更大的微批次大小，并配合其他计算图优化，彻底释放GPU算力。经过RLinf调优，训练吞吐从基线代码的1.1 samples/sec/gpu飙升至4.44 samples/sec/gpu，相比存在诸多限制的FSDP2基线，实现了惊人的5.84倍性能飞跃。

（图注：14B与5B模型的单步时间与吞吐对比。测试全程使用8xH100。其中14B模型使用微批次大小=1，全局批次大小=8；5B模型使用全局批次大小=256。FSDP2基线版本因兼容性问题无法开大微批次大小，导致吞吐受限。）

训练收敛效果测试：追求速度，更要保证精度
极致的性能优化必须以保障训练正确性与收敛稳定性为前提。我们对RLinf版本的DreamZero进行了严格的收敛性验证。

下图展示了DreamZero 5B模型在LIBERO数据集上的损失曲线对比。可以看到，RLinf版本（橙线）与最新基线（蓝线）呈现一致的收敛趋势。值得注意的是，基线代码的损失曲线波动较大，这源于其以“回合”为粒度读取数据；而RLinf通过底层重构，实现了回合内“步”级别的随机采样，有效平滑了训练噪声，提升了梯度更新的稳定性。