首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
英伟达DreamZero双榜第一:机器人训练方式该更新了

英伟达DreamZero双榜第一:机器人训练方式该更新了

热心网友
49
转载
2026-03-03

机器之心编辑部

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

近日,NVIDIA 发布的世界 - 动作模型 DreamZero,在两项颇具代表性的机器人基准测试 RoboArena 、MolmoSpaces 上双双登顶。



DreamZero 核心思想是:在同一个模型里,同时预测未来视频和机器人动作。也就是说,DreamZero 让机器人在行动前,先在模型内部想象未来。

但问题也随之而来。

为什么这种边预测世界、边预测动作的设计,会带来如此显著的性能提升?它到底比传统策略模型或世界模型强在哪里?是真正的范式突破,还是数据与模型规模的胜利?

围绕这些问题,近期一篇颇具讨论度的分析文章《Why is DreamZero so good at robotics?》给出了一个更深入的解读:在训练一个通用机器人策略时,你的数据和模型架构需要具备哪些特征?这篇文章的解读,正在对以往的认知提出质疑。

文章作者是一位名叫 Chris Paxton 机器人与人工智能研究者,曾在 Hello Robot 负责具身智能(Embodied AI)方向的研究工作。此前,Paxton 在 NVIDIA Research 以及 Meta 旗下的基础人工智能研究机构 FAIR 工作过。



这篇文章从模型介绍、训练数据分布、模型主干规模、时间上下文长度,以及视频生成作为辅助监督信号等多个维度,拆解了 DreamZero 表现突出的可能原因。



文章地址:https://itcanthink.substack.com/p/why-is-dreamzero-so-good-at-robotics

接下来是文章主要内容。

DreamZero 是什么?



DreamZero 是 NVIDIA 提出的「世界 — 动作模型」(world-action model)。它借鉴了世界模型中的许多核心思想,尤其是视频生成对机器人任务有价值这一理念,但在关键设计上做了几处重要改动。其中最关键的一点是:它联合建模动作生成与视频生成。

通常来说,世界模型大致可以分为两类:

动作条件世界模型:学习状态与动作到下一状态的映射,即 x′=f (x,a)。其中 x 表示当前观测状态,a 表示动作。例如 V-JEPA 2 或近期 RISE 论文中的世界模型就属于这一类。

逆动力学世界模型(inverse dynamics world models):例如 NVIDIA 的 DreamGen 或 1X 的世界模型。这类方法先学习 x′=f (x),然后再通过一个逆动力学模型学习 a=g (x,x′)。

相比之下,DreamZero 更像一个传统的机器人策略模型,但它同时还会预测未来视频。因此,它学习的更接近于:(x′,a)=f (x)。

也就是说,它在同一个模型中同时预测未来状态和对应动作

我们也可以把它与传统的视觉 — 语言 — 动作模型(vision-language-action model)进行对比:DreamZero 不仅预测动作,还预测未来画面。这为模型提供了一种更丰富的监督信号,不仅告诉它该做什么,还告诉它世界接下来会变成什么样,从而帮助模型更好地学习环境演化的规律。

基准



RoboArena 是一个基于 Droid 构建的分布式真实世界基准测试。全球各地的评测者拥有相对相似的机器人和实验设置,并根据不同的自然语言指令,运行一系列开放式的机器人任务评测。

这意味着,从数据分布的角度来看,它在某种程度上属于 DreamZero 的分布内(in-distribution)场景。因为 DreamZero 本身就是在 Droid 数据上训练的,而 Droid 中包含了非常相似的任务和实验环境。但与此同时,这仍然是一个真实世界的评估环境,意味着会存在各种现实中的复杂性和变化;而且具体任务是由评测者自行选择的。

RoboArena 还是一个 head-to-head 式的比较基准,有点类似于在大模型发展中产生重要影响的 Chatbot Arena。



MolmoSpaces 是一个新的基准测试平台,具备高保真物理模拟能力和多样化、程序化生成的环境。

其中,MolmoSpaces-Bench 重点测试在多种受控变化条件下的任务表现,包括抓取(pick)、放置(place)、开合(open and close)等基础操作,以及这些操作的组合任务。

这是一个尚未接近性能饱和的新基准,也就是说,模型之间仍然存在明显差距,仍有较大提升空间。而 DreamZero 在这些测试中都取得了优异表现。

我们能从中学到什么?

我们可以具体对比一下 DreamZero 和 pi-0.5,因为 pi-0.5 是目前排名第二的模型。

训练数据方面

pi-0.5 使用了超过 1 万小时的真实机器人数据、视觉语言模型(VLM)数据,以及 Droid 数据集进行训练。而 DreamZero 则根据不同的模型版本(checkpoint),使用 DROID 数据或 AgiBot 数据进行训练。

训练数据的分布很可能在这里起到了至关重要的作用。可以注意到,在 DreamZero 的论文中,它在 AgiBot 数据集上的表现明显优于 pi-0.5(而 AgiBot 并不包含在 pi-0.5 的训练数据中);但在双方都使用过的 DROID-Franka 设置下,两者的性能差距则要小得多。



这似乎也在暗示:那额外的 1 万小时机器人数据,可能并不像人们想象中那样万能有效。

更关键的,或许不是数据量本身,而是是否在正确分布的机器人数据上进行预训练。在另一篇近期博客文章中,Physical Intelligence 展示了一个非常显著的结果:当模型在与目标任务分布高度一致的合作方数据上进行预训练时,性能会出现大幅提升



因此,也许从另一种机器人身上额外增加 1 万小时的数据,并不一定比使用手头那些廉价、充足的第一视角视频数据更有效。对于那些希望训练跨机体通用机器人大脑的研究者来说,这可能并不是一个好消息。换句话说,从不同机器人形态中获得的收益,可能并不会比单纯加入大量低成本的第一视角视频数据更多。

模型主干

首先是主干模型规模之差。

DreamZero 基于 Wan2.1-I2V-14B-480P 构建,是一个 140 亿参数的视频生成模型,相比之下,pi-0.5 基于 30 亿参数的开源视觉语言模型 PaliGemma 进行训练,参数规模差了将近 5 倍。

其次是信息输入方式不同。

DreamZero 最多可以接收 8 帧上下文输入,等于让模型看一个短视频片段。pi-0.5 只能输入单帧图像,每次决策只看当前一张照片。

在真实世界中,机器人任务几乎都具备几个典型特征:环境往往是部分可观测的,存在复杂的物理动态过程,并且高度依赖对时间连续性的理解。例如,一扇门可能刚刚被推开了一点、某个物体正在滑动、机械臂上一刻的速度和加速度都会影响下一步动作的结果。

如果模型只能看到单帧图像,它往往无法判断物体是在运动还是静止,也难以推断当前状态是否由之前的动作所引发,更无法理解惯性等物理效应。

而如果模型能够观察连续的多帧画面,比如 8 帧历史信息,它就能捕捉到运动趋势和状态变化,更容易学习到潜在的物理规律,从而在控制和决策上表现得更加稳定和准确。

模型规模

DreamZero 是一个体量巨大的模型,而论文中相当一部分工作其实是在解决如何让这个 140 亿参数的庞然大物实现实时运行。论文中的消融实验似乎表明,模型规模在性能表现上起到了非常关键的作用。



同时引入更长的历史信息、扩大模型规模,通常都会带来一个问题:模型更难训练,而且在低数据环境下更容易过拟合。与大语言模型不同,后者由于拥有海量数据,几乎不用担心过拟合问题。机器人领域本质上始终处于一个低数据环境中。即便是现在,DROID 数据集相比最小规模的 LLM 数据集,也依然小得多。

因此可以提出一个猜想:视频生成目标在这里充当了一种辅助损失(auxiliary loss)。它为 DreamZero 模型施加了一种结构约束,迫使模型学习某种内部的世界模型。与来自机器人动作的稀疏信号相比,视频预测提供了一种更强、更密集的监督信号。这可能使模型更容易适应那些它并未直接训练过的、多样化的 MolmoSpaces 环境。

最后的思考

仅凭这些论文,我们仍然无法得出全部结论。我们无法获得 Physical Intelligence 所使用的全部数据;NVIDIA 用于推理的 GB200 设备目前也并不容易获取。但对很多人来说,可以得出一个经验,也许我们并不需要此前认为那么多的数据,就能够在真实世界机器人任务中取得强劲表现。

最后,作者表示,接下来几周会推出一期 RoboPapers 播客节目,专门讨论 DreamZero;此外,下周也会发布一篇更深入的分析报告,感兴趣的读者可以关注一下。

来源:https://www.163.com/dy/article/KN42MHPP0511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

机器人穿针引线的核心技术(智能抓取大解析)
科技数码
机器人穿针引线的核心技术(智能抓取大解析)

张延柏 张延柏近照,AI修饰生成素描画 不久前,我们团队研发的灵巧手完成了一项极具挑战的操作——“穿针引线”。机械指尖稳定地捏住细线,缓缓对准针眼,最终将线顺利穿过。对人类来说,这是一个简单的日常动

热心网友
03.31
打工族养小龙虾:5个低成本副业秘诀
科技数码
打工族养小龙虾:5个低成本副业秘诀

如果你还把人工智能理解成一个更会说话的对话框,那你看到的只是它最温和的一面。真正开始改造办公室生态的,不再只是“会聊天的模型”,而是以OpenClaw为代表的自主智能体。圈内有人叫它“小龙虾”,这名

热心网友
03.30
73亿参数模型突破,从视频学习物理操控机器人新范式
AI
73亿参数模型突破,从视频学习物理操控机器人新范式

新智元报道编辑:LRST【新智元导读】机器人操控的「数据困境」一直是行业痛点:要让机器人学会精细操作,传统方法需要大量人工标注的动作演示数据,成本高昂、周期漫长。这个瓶颈能否被突破?大型视频生成模型

热心网友
03.27
北大首推智能视频助手,多所高校试点应用
科技数码
北大首推智能视频助手,多所高校试点应用

这项由北京大学联合中科院自动化所、清华大学、Adobe等多家机构共同完成的突破性研究,发表于2026年3月的计算机视觉顶级会议论文集(arXiv:2603 20422v1)。有兴趣深入了解的读者可以

热心网友
03.26
AI如何实现类人视频理解:突破机制与技术路径
科技数码
AI如何实现类人视频理解:突破机制与技术路径

这项由东北大学、加州大学圣地亚哥分校、马里兰大学、得克萨斯大学奥斯汀分校以及华盛顿大学联合开展的研究发表于2026年3月,论文编号为arXiv:2603 22281v1。研究团队针对现有视频理解技术

热心网友
03.26

最新APP

铁锈战争
铁锈战争
棋牌策略 03-31
你说我猜
你说我猜
休闲益智 03-31
史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29

热门推荐

Sharkoon 旋刚推出双模全配列机械键盘 OfficePal K70W
科技数码
Sharkoon 旋刚推出双模全配列机械键盘 OfficePal K70W

Sharkoon旋刚推出双模全配列机械键盘OfficePal K70W 机械键盘市场又添新选择。日前,Sharkoon旋刚正式发布了旗下新款双模全配列机械键盘——OfficePal K70W。这款产品为用户提供了段落有声和线性静音两种轴体选项,值得一提的是,无论是哪种轴体,官方标称的按键寿命都达到了

热心网友
03.31
风车动漫观看指南:正版入口与在线平台推荐
电脑教程
风车动漫观看指南:正版入口与在线平台推荐

风车动漫最新在线网入口地址是https: www fcdman com ,该平台提供海量动画资源、流畅观看体验及便捷功能,如多类型番剧、无广告播放、进度记忆和快速更新等。风车动漫

热心网友
03.31
什么是晨星烛台形态?晨星蜡烛图形态详细介绍
web3.0
什么是晨星烛台形态?晨星蜡烛图形态详细介绍

什么是晨星烛台形态?晨星蜡烛图形态详细介绍 什么是晨星烛台形态? 在股票、外汇乃至加密货币市场上,交易者们常常睁大眼睛寻找趋势反转的蛛丝马迹。其中,晨星烛台形态就是一个备受青睐的看涨反转信号。它通常出现在一波下跌行情即将衰竭的末端,像黎明前的第一道曙光,暗示着市场情绪可能正在悄然转变。 典型的晨星形

热心网友
03.31
小红书官网登录入口查找与登录指南
手机教程
小红书官网登录入口查找与登录指南

在当今数字化的时代,社交平台成为了人们生活中不可或缺的一部分。而小红书app,凭借其独特的内容分享模式和丰富多样的生活资讯,吸引了无数用户的关注。你是否想知道如何快速便捷地登录小红

热心网友
03.31
曝苹果2026年还将发布十多款新品 iPhone Fold领衔
iphone
曝苹果2026年还将发布十多款新品 iPhone Fold领衔

曝苹果2026年还将发布十多款新品 iPhone Fold领衔 本周,随着新款MacBook Air、MacBook Pro以及iPhone 17e等多达七款产品搭载M5芯片亮相,苹果今年的首轮产品攻势算是告一段落了。但这远不是终点,事实上,今年的好戏才刚刚拉开序幕。 目光转向桌面端,Studio

热心网友
03.31