英伟达世界模型新突破:单模型驱动所有机器人

编辑|冷猫
驱动具身智能进入通用领域最大的问题在哪里?
我们认为,核心问题在于「跨具身(cross-embodiment)迁移」
当然,具身智能执行通用复杂任务的核心是一个完善的世界模型。但是,大多世界模型其实并没有我们想象的那样具备极强的泛化性和迁移能力。
简单来说,这些用在机器人或是智能汽车上的世界模型,基本都是在某个固定的硬件平台上设计训练的,大多不具备很强的泛化能力,跨具身迁移几乎靠运气。
说白了,大多数机器人今天学到的不是 「世界是如何运作的」,而是 「在这台机器该怎么动」。我们需要能学到一个真正理解物理与因果的世界模型 —— 知道世界会怎么变、动作会带来什么后果,才能在不同身体、不同环境中迁移与泛化。
在这个问题上,作为算力的王者,深耕各类世界模型的英伟达再一次发力,构建了一个全新是世界模型,一切都是 Zero-Shot 的。
最近,英伟达 GEAR 实验室提出 DreamZero,一种基于预训练视频扩散骨干网络构建的世界动作模型(WAM)。
这是一个拥有 140 亿参数的模型,能够让机器人仅通过简单的文本提示就完成此前从未见过的任务。

实验室负责人 Jim Fan 将其称为机器人领域的「GPT-2 时刻」:研究团队只需输入想法,机器人就能执行相应动作。目前,该模型的代码已在 GitHub 上开源。


论文标题:World Action Models are Zero-shot Policies论文链接:https://dreamzero0.github.io/DreamZero.pdfGithub 链接:https://github.com/dreamzero0/dreamzero
不同于传统的 VLA 模型,WAM 通过联合预测未来世界状态与动作来学习物理动力学,并以视频作为世界演化的稠密表示。通过对视频与动作的联合建模,DreamZero 能够从异构机器人数据中高效学习多样化技能,而不依赖重复示范。在真实机器人实验中,相比最先进的 VLA,DreamZero 在新任务与新环境的泛化上实现了超过 2× 的提升
至关重要的是,通过模型与系统层面的优化,研究团队让一个 140 亿参数的自回归视频扩散模型实现了 7Hz 的实时闭环控制。此外,研究团队展示了两种跨具身迁移能力:仅使用 10–20 分钟的人类或其他机器人纯视频示范,即可在未见任务上带来 超过 42% 的性能提升。更令人惊讶的是,DreamZero 只需 30 分钟的 「玩耍数据」,就能适配到全新的机器人,同时仍保持零样本泛化能力

DreamZero 整体概览。
图中展示了 DreamZero 通过联合预测视频与动作,世界动作模型继承了关于世界物理规律的先验,从而实现了:
1)从多样、非重复的数据中高效学习;
2)在开放世界场景中的强泛化能力;
3)仅依赖纯视频数据即可完成跨具身学习;
4)对新机器人的少样本快速适配。

DreamZero 的模型架构。
大多的预训练的视频扩散模型凭借来自网页规模数据的丰富时空先验,成为构建机器人策略的理想骨干网络。然而,将这类模型转化为高效的世界动作模型仍面临关键挑战:
1)视频–动作对齐:联合预测视频与动作要求对视觉未来与电机指令进行紧密耦合,但如果只是简单地将独立的视频头与动作拼接,往往会导致二者对齐失效;
2)架构设计:尚不清楚双向架构还是自回归架构更适合 WAM,这关系到多模态对齐、误差累积以及推理效率等关键问题;
3)实时推理:视频扩散模型需要在高维潜空间中进行多步迭代去噪,使其在闭环控制场景下速度过慢、难以实用。
为此,DreamZero 通过模型设计选择有效应对了上述挑战。
模型接收三类输入:视觉上下文(通过 VAE 编码)、语言指令(通过文本编码器)、以及本体感知状态(通过状态编码器)。这些输入随后被送入一个基于 Flow Matching 的自回归 DiT 主干网络,由其联合预测未来的视频帧与动作,并通过各自独立的解码器输出结果。
在训练阶段,模型以分块(chunk)的方式工作:在给定干净视频上下文作为条件的情况下,对加噪的视频与动作潜变量进行去噪。在推理阶段,模型的预测会以异步方式在真实世界中执行,同时将真实观测结果回灌到 KV cache 中,以防止误差随时间累积。
实验结果
研究团队在 六种设置下展示了 DreamZero 的能力 —— 其中 五种用于测试泛化,一种用于实时部署。
相关的训练数据以及实验结果的演示可以参考以下链接:
https://dreamzero0.github.io/evals_gallery/
AgiBot 预训练:已见 & 未见任务
研究团队对预训练模型进行开箱即用评测:任务来自预训练分布,但在未见对象的新环境中进行零样本测试。DreamZero(也包含从零训练版本)取得 62.2% 的平均任务进度,相比最佳预训练 VLA 基线(27.4%)提升 超过 2×。从零训练的 VLA 几乎为零;预训练 VLA 有一定进展,但幅度有限。

对于训练中完全未出现的任务(如解鞋带、握手),DreamZero 仍达到 39.5% 的任务进度,而 VLA 再次表现吃力。值得注意的是,预训练 VLA 在未见任务上的有限进展,主要源于其无论指令如何都倾向于执行 「抓取 - 放置」 的默认动作,显示其过拟合于主导训练行为,而非真正理解新任务语义。研究团队在 4 台机器人、不同环境与物体上,对每个检查点进行了 80 次 rollouts。

DROID:已见任务 & 未见动作
为验证在公开数据上的效果,研究团队在 DROID(最异构的开源机器人数据集之一)上训练 DreamZero,并评测 20 个已见任务与 20 个未见动词任务(DROID 中未出现的动作)。DreamZero 显著优于预训练基线,在未见动词上取得 49% 的任务进度,而最先进的 VLA 仅为 25–32%。

后训练:分布外泛化
本部分研究 WAM 在任务特定微调后是否仍保留泛化能力。研究团队在 三项下游任务上进行后训练:叠衬衫、装水果、清理餐桌。DreamZero 在三项任务上均表现更强,表明后训练后仍保持环境泛化能力。

跨具身迁移
仅用 30 分钟的玩耍数据(55 条轨迹),DreamZero 即可适配 YAM 机器人,并对南瓜、泰迪熊、纸袋等新物体实现零样本泛化,同时展现出强大的语言指令遵循能力。来自 AgiBot 预训练的知识可直接迁移,无需大规模重训。这是目前效率最高的具身迁移:以往需要数百小时示范的工作,能够在 30 分钟内完成(未使用任何其他 YAM 数据)。

交互式提示
机器人基础模型的 「提示时代」 已经到来。研究团队展示了交互式提示的实战:带着机器人走到不同地方,让人们直接用语言提出新任务。机器人能够完成多种令人惊喜的操作。

实时推理
通过模型、系统与实现层面的优化,DreamZero 实现了 每个动作块 150ms 的实时推理,支持 7Hz 闭环控制。结合异步推理与动作块平滑,执行过程更加流畅、响应迅速。研究团队对比了 16 / 4 / 1 个扩散步数的效果:步数越少延迟越低,而 DreamZero-Flash 即便在单步推理下也能保持性能。研究团队还展示了动作块平滑与异步推理对执行质量的影响。

DreamZero (16 diffusion step) + async & action chunk smoothing
零样本泛化能走多远? 研究团队持续对 DreamZero 进行压力测试:在从未训练过的任务、从未见过的环境中探索能力。从扇汉堡、按电梯按钮,到敲木琴、摇铃鼓,不断涌现出令人惊讶的新能力。
DreamZero 只是开始 —— 它代表了基于视频世界模型的新一代机器人基础模型浪潮。
更多信息,请参阅原论文。
相关攻略
2026年5月17日,一场聚焦科技与创新的青少年盛事在河北南宫中学正式启动。邢台市青少年机器人竞赛现场,吸引了来自全市的258支参赛队伍、超过600名中小学生同场竞技。这群年轻的科技探索者,正通过编程与工程实践,生动描绘着智能时代的未来图景。 现场镜头捕捉到令人动容的一幕:一位小选手正专注地与他的机
5月15日,在伏羲九针智能科技(北京)有限公司的产品展厅内,工作人员(左)正向客户演示其核心产品——智能静脉辅助穿刺机器人。河北日报记者 刘杰摄 静脉穿刺时血管难找、反复扎针的痛苦,是许多患者,尤其是血管条件不佳的儿童、老人及重症患者的共同经历。如今,这一长期困扰临床的难题迎来了智能化的解决方案。位
数字化浪潮席卷之下,“数字员工”已不再是科幻概念。从大型国企到中小民营企业,引入机器人流程自动化(RPA)来提升效率、降低差错,已成为降本增效的关键路径。然而,当企业真正考虑引入这位“虚拟同事”时,第一个现实问题往往就是:这到底要花多少钱? RPA机器人的价格构成:四种主流模式解析 市场上RPA的收
1954年,世界上第一台真正意义上的工业机器人Unimate诞生,它的使命很单纯:在工厂里执行重复性的作业。 时间快进到2026年,局面已大不相同。看看宇树GD01这样的机器人,它们正在学习自适应移动、做出AI决策,甚至能在复杂地形中自主导航。 短短半个多世纪,机器人从固定在基座上的可编程机械臂,进
当货运机器人技术邂逅《星球大战》的经典IP,会诞生怎样令人惊喜的产品?彼亚乔快进公司近期交出了一份充满创意的答卷。他们正式发布了一款全新的自主跟随货运机器人,其设计灵感直接源自《星球大战》系列中备受全球粉丝喜爱的角色——格罗古(Grogu)的悬浮座舱。 这款名为“Grogu gitamini”的智能
热门专题
热门推荐
广东无人机适飞空域扩大16%至10 24万平方公里,覆盖全省57%陆地面积,滨海、郊野、工业园区及非核心城区公园等区域开放,深圳市区新增连片适飞区。飞行需通过民航局UOM平台提前申请,严禁“黑飞”,违者将受处罚。平台已升级,实现全国规则统一与分钟级空域更新,支持低空物流与巡检等应用。
杭州Costco门店因iPhone17系列手机引发抢购热潮,数百人排队致迅速断货。抢购源于官方降价与地方补贴叠加:iPhone17Pro全系直降千元,同时当地青年消费补贴可再减10%,最高省千元。双重优惠下,256GB版iPhone17Pro到手价低至7172元,较电商平台便宜近千元,吸引本地及周边消费者。目前门店仍处缺货状态,补货时间未定。
5月17日晚,长征八号运载火箭在海南商业航天发射场点火升空,成功将千帆星座第九批组网卫星送入预定轨道。此次发射是该发射场启用以来的第15次成功发射,也是今年第5次发射,体现了我国商业航天发射能力的日益成熟和常态化运营的稳步推进。
七彩虹新款iGameM15 M16Origo2026款游戏本已发售,起售价11499元。M15为15 3英寸黑色机身,配备2 5K300Hz屏,最高可选Ultra9处理器与RTX5070显卡。M16为16英寸白色款,屏幕规格相同,处理器性能更强,电池容量更大。两款均提供多种配置,享受国家补贴后价格更具竞争力,面向中高端游戏玩家与创作者。
联想在北美市场推出新款ThinkPadT14Gen7商务笔记本,支持用户自行更换LPCAMM2内存。该机型提供多款英特尔酷睿Ultra处理器选项,内存可选16GB至64GB,电池与屏幕亦有多种配置,其中顶配版搭载OLED屏幕。产品起售价为1618美元,高配版本价格超过3700美元,主要面向商用及专业办公市场,兼顾性能、可升级性与不同预算需求。





