英伟达世界模型训练提速400% 一周完成一月工作量
在通往通用人工智能的道路上,世界模型被视为让AI真正理解并预测物理世界的关键拼图。近期,英伟达发布的世界动作模型DreamZero在两项机器人基准测试中双双登顶,引发了具身智能领域的广泛关注。
与传统的视觉语言动作模型不同,DreamZero将视频这一包含完整时空信息的载体作为核心学习材料。它遵循“先理解世界如何变化,再决定自己如何行动”的模式,从而天然地从互联网视频中汲取了海量的物理经验。这种范式革新,使得模型不再依赖大量重复演示来学习单一动作,而是能从多样化的数据中抽象出物理规律,进而在从未见过的环境和任务中保持稳定的执行能力。

上表直观展示了DreamZero模型相比当前最优开源VLA模型π0.5的显著优势。在任务成功率、泛化性、后训练提升效果以及跨真机本体的适应性等多个维度,DreamZero均实现了超过2倍的性能提升。这不仅大幅降低了技能学习的数据成本,也为机器人的形态适配与快速部署扫清了障碍。
然而,以扩散模型架构为主体的世界动作模型,也给算力和显存带来了前所未有的挑战。根据最新开源的训练代码,使用8台H100 GPU训练2.475亿帧数据,完整周期长达25天。高昂的训练成本与时间消耗,成为行业复现和深入研究的主要门槛。
为了推动前沿研究更高效地落地,无问芯穹与清华大学等机构联合推出的大规模强化学习框架RLinf,现已正式提供对DreamZero训练的深度支持。其目标不止于功能适配,更在于通过深度的系统级优化,重构并加速整个训练管线。相比官方提供的最新基线脚本,RLinf成功实现了近4倍的训练吞吐加速,同时保持了优异的收敛效果。
那么,RLinf是如何极致压榨GPU算力,达成这一性能飞跃的?接下来,我们将深入拆解其背后的核心优化逻辑。

核心揭秘:近4倍加速背后的三大优化维度
为了突破现有训练脚本的性能瓶颈,RLinf系统优化团队从计算图、并行策略与全局参数调优、以及数据处理管线三个维度进行了深度重构。

极致的算子与计算图优化:Torch Compile + CUDA Graph
Python层面的算子调用与调度开销,常常是限制GPU达到峰值性能的“隐形杀手”。RLinf深度融合了torch.compile与CUDA Graph两项技术:
Torch Compile:通过底层编译优化,对算子进行深度融合,特别是针对WanRMSNorm、adaLN-zero等扩散模型架构中的低效算子进行了重点优化。
CUDA Graph:将计算图固化,消除了GPU内核启动时的CPU调度瓶颈。这在DreamZero训练中尤为有效,因为其CausalWanSelfAttention部分的核函数启动非常密集。
通过这项优化,DreamZero的5B和14B模型在保持原有微批次大小配置下,单步训练时间分别降低了50%和34%,为后续优化奠定了坚实基础。
计算与显存的联合优化:解锁全方位性能调优空间
灵活的微批次大小设置、多样的并行策略以及激活重计算,是大模型训练中必不可少的调优手段。然而,DreamZero的最新基线存在一些工程局限,例如默认使用性能较低的DeepSpeed ZeRO2 offload模式,图像编码器未能有效批处理等,限制了性能提升的空间。
RLinf团队从底层工程入手,彻底解决了这些痛点,构建了一套健壮且高度可配置的调优体系:
稳定适配FSDP2:FSDP2是PyTorch团队推出的最新零冗余优化器实现。RLinf成功将训练后端迁移至FSDP2,解决了原有DeepSpeed方案中因ZeRO3与VAE模块冲突而被迫降级的问题,同时避免了反向传播阶段的额外CPU开销,让用户可以根据显存灵活选择分片策略。
释放微批次大小的灵活性:RLinf解决了微批次大小大于1时,与激活重计算、FSDP2策略组合产生的复杂兼容性问题,并实现了图像编码器的高效批处理。这使得用户能够根据硬件显存,自由配置微批次大小,在显存占用与计算效率间找到最佳平衡。例如,对于5B模型,将微批次大小从1提升到2,吞吐量增加了85%,而单步耗时几乎不变。
激活重计算与加速算子的深度协同:通过底层工程优化,RLinf实现了激活重计算机制与CUDA Graph、FSDP2的稳定解耦与协同。这使得激活重计算成为一个可靠、可量化的显存优化工具。在显存受限时,能以微小的计算代价换取显著的显存释放,从而支持更大的并行规模。在5B模型训练中,开启此功能后,单卡微批次大小可提升至32,最终使同等算力下的吞吐提升了158%。
通过以上在并行策略、微批次大小和激活重计算方面的全局调优,RLinf在5B模型训练上,于第一项算子优化的基础上,进一步将性能提升了266%。
突破I/O吞吐瓶颈:构建高效视频数据处理管线
当计算密度被大幅提升后,数据加载效率便成为新的性能瓶颈。DreamZero训练中,视频解码与预处理极其消耗CPU资源。
传统方案(如PyA V)的解码性能难以支撑高吞吐需求;而盲目增加数据加载进程数量,又会剧烈抢占CPU资源,导致GPU内核下发延迟,反而拖慢整体训练。
为了在解码速度与系统开销间找到最优解,RLinf团队对主流视频处理库进行了深度性能评估:

评估发现,虽然Decord在纯解码速度上略有优势,但Torchcodec在保持相近性能的同时,表现出更稳定的CPU占用。这为训练主线程预留了充足的计算余量,使得系统能够支持更多并发数据加载进程。
相比原生的PyA V方案,单个视频解码时间缩短了近400毫秒。在DreamZero多视角(左、右、腕部视角)的训练场景下,累计节省解码时间达1.2秒。这项I/O端的优化,为持续压榨GPU计算潜力提供了源源不断的“数据弹药”。
性能实测:从“能跑通”到“极致高效”的端到端跃迁
为了验证上述多维优化的综合成效,我们在Droid数据集上对DreamZero不同规模的模型进行了端到端测试。
DreamZero-14B:大参数量下的吞吐飞跃
对于140亿参数的大模型,显存压力巨大。原基线通常被迫采用DeepSpeed ZeRO-offload方案,导致了严重的计算/通信浪费与CPU换入换出开销。RLinf方案相比原生DeepSpeed实现了2.7倍的加速;即便与未经优化的FSDP2基线相比,吞吐量也进一步提升了35%。
DreamZero-5B:算力密度的极致压榨
对于50亿参数的中等规模模型,RLinf的优势在于能够通过高效率的激活重计算稳定开启更大的微批次大小,并配合其他计算图优化,彻底释放GPU算力。经过RLinf调优,训练吞吐从基线代码的1.1 samples/sec/gpu飙升至4.44 samples/sec/gpu,相比存在诸多限制的FSDP2基线,实现了惊人的5.84倍性能飞跃。


(图注:14B与5B模型的单步时间与吞吐对比。测试全程使用8xH100。其中14B模型使用微批次大小=1,全局批次大小=8;5B模型使用全局批次大小=256。FSDP2基线版本因兼容性问题无法开大微批次大小,导致吞吐受限。)
训练收敛效果测试:追求速度,更要保证精度
极致的性能优化必须以保障训练正确性与收敛稳定性为前提。我们对RLinf版本的DreamZero进行了严格的收敛性验证。
下图展示了DreamZero 5B模型在LIBERO数据集上的损失曲线对比。可以看到,RLinf版本(橙线)与最新基线(蓝线)呈现一致的收敛趋势。值得注意的是,基线代码的损失曲线波动较大,这源于其以“回合”为粒度读取数据;而RLinf通过底层重构,实现了回合内“步”级别的随机采样,有效平滑了训练噪声,提升了梯度更新的稳定性。




(图注:橙线为RLinf训练曲线,蓝线为DreamZero最新代码训练曲线,对比了三类损失和梯度范数指标。)
为了进一步验证优化有效性,我们对RLinf训练过程中9k到21k步的检查点在LIBERO仿真器的Spatial Benchmark上进行了端到端测评。结果显示,模型在18k步处达到了96.68%的最优成功率,证明RLinf在大幅缩短训练时间的同时,完全保持了模型原有的性能与收敛质量。

总结:让世界模型迭代跑在“快车道”
从底层的算子融合到顶层的I/O调优,从并行策略的纠偏到微批次自由度的释放,RLinf对DreamZero的支持远非简单的参数调整,而是一次系统级的重构。
近4倍的吞吐提升,意味着算法研究人员在同等硬件条件下,可以将原本耗时一个月的实验缩短至一周内完成。这不仅仅是工具的升级,更是为具身智能乃至世界模型的研究迭代,安装上了一台高效的翻跟斗。

相关攻略
新研究提出“题目反应规模定律”,借鉴自适应考试原理,通过动态调整题目难度,仅用极少题目即可精准预测大语言模型性能,将预测计算量降低超过99%。这大幅节省训练成本与时间,有助于降低学术研究门槛并提升企业研发效率。
随着大模型训练规模扩大,底层基础设施成为关键。GPU集群托管需解决高密度算力下的供电与散热问题,确保芯片高效运行。同时,优化网络拓扑以消除丢包,保障分布式训练流畅。原厂驻场运维能快速响应故障,缩短中断时间。该方案通过物理层完全掌控,为长周期训练提供稳定保障,将底层稳定。
具身智能发展面临高质量数据短缺挑战。如祺出行依托平台优势,日均产出1600小时多模态真实场景数据,完整覆盖驾驶决策与反馈链条,为世界模型训练提供稀缺资源。公司已构建从采集到标注的全栈数据服务能力,业务拓展至自动驾驶、具身智能与大模型等领域,并与多家头部企业达成合作。
模型训练,本质上就是赋予计算机“学习与思考”的能力。它通过神经网络等算法,让机器在海量历史数据中自主发现规律、优化内部参数,最终构建出一个能够进行智能预测或内容生成的“逻辑大脑”。 这个过程可以类比于培养一位顶尖专家。模型训练就如同专家通过大量案例分析(数据)来提炼方法论(模型)。如今,这一进程正飞
在使用Perplexity进行网络搜索时,若您希望确保个人搜索记录完全不被用于AI模型训练或服务优化,您需要主动管理其数据采集设置。平台默认可能会利用用户行为数据改进产品,但也为用户提供了清晰的隐私控制选项。以下是具体的操作指引。 一、关闭账户级AI数据使用权限 这一步至关重要,它能直接阻止Perp
热门专题
热门推荐
NFT的艺术革命:数字所有权如何改变创作与收藏? 说起NFT,或者说非同质化代币,它早已不是科技圈里的小众概念。其核心在于,利用区块链技术,为原本可以无限复制的数字艺术品,打上了独一无二、可验证的“身份证”。这看似简单的技术应用,却像一块投入湖面的巨石,激起的涟漪正全方位地重塑艺术世界的游戏规则——
Instant Job Cover Letters with AI是什么 在求职过程中,一封出色的求职信往往是获得面试机会的关键。然而,如何将个人经历与职位要求精准匹配,撰写出既专业又具吸引力的内容,对许多人而言是一项挑战。今天介绍的这款工具——Instant Job Cover Letters w
CopywriterGPT io是什么 在内容营销至关重要的当下,高效创作专业营销文案是众多企业与团队的核心需求。CopywriterGPT io正是针对这一痛点推出的AI智能文案生成平台。它运用前沿人工智能技术,旨在为营销人员、创业者及中小企业主提供个性化、高质量的文案创作解决方案,帮助用户快速塑
aiRight是什么 在内容创作领域,效率与质量往往难以平衡。是否存在一款工具能够同时解决这两大难题?今天我们要深入探讨的aiRight,或许正是您寻找的解决方案。它由业界知名的科技公司研发,核心使命清晰:赋能用户高效生成与管理优质内容,尤其适合时间紧迫的内容创作者、市场营销团队以及企业级用户。 简
Ace That Application是什么 在竞争激烈的求职市场中,一份精准匹配、专业出色的简历和求职信是获得面试机会的关键。Ace That Application正是为解决这一核心需求而设计的智能平台。由Creati ai开发,它致力于通过人工智能技术,帮助求职者高效创建高度个性化的申请材料





