英伟达如何转动物理AI数据飞轮的核心方法_AI热点日报

英伟达如何转动物理AI数据飞轮的核心方法

类型：热点整理2026-06-25

具身智能数据采集正从遥操转向传感化人类数据。NVIDIA通过DexUMI、EgoScale和DreamDojo等框架，将人类交互转化为可迁移训练资源，并构建世界模型环境。核心在于建立物理AI数据飞轮，使真实世界交互持续转化为机器人训练数据。

先划个重点：图灵奖得主Richard Sutton在《苦涩的教训》中指出，从长远来看，真正胜出的技术路线，往往是那些能够持续消化更多数据与算力的通用方法。这一观点在人工智能领域得到了广泛认同。

将这一逻辑迁移到具身智能领域同样成立。但现实难题在于：机器人若想真正进入真实世界，首先必须获取足够高质量、足够大规模、并且能直接进入训练闭环的真实世界交互数据。

NVIDIA高级研究科学家Jim Fan判断：过去几年主流的遥操（teleoperation）数据采集方式，已经接近发展天花板。遥操数据与机器人本体高度绑定，质量虽高，但成本、效率与规模均受限于真实机器人系统本身。要让机器人训练达到基础模型级别的数据规模，行业必须寻找新的数据来源。

NVIDIA的数据策略，实际上反映了具身数据行业的一个清晰转向：机器人训练正从依赖遥操数据，转向更具规模化潜力的传感化人类数据（sensorized human data）。第一视角视频、动作捕捉、可穿戴设备采集的人类操作，正成为新的训练来源。

这也意味着，具身数据的关键问题发生了变化：行业不仅需要采集更多机器人轨迹，更要持续将真实世界的交互，转化为可训练、可复用、可跨本体迁移的数据资产。

阿尔法公社非常看好这一方向，主导了诺亦腾机器人的拆分并进行了早期投资。诺亦腾机器人走的是human-centric data路线，围绕人类与真实世界的交互，探索同步、多模态、有物理意义的数据生产体系，将零散的人类交互数据转变为可供机器人企业和模型团队持续使用的训练基础设施。

要打造这样的数据基础设施，无论哪家公司，都必须回答三个核心问题：高质量数据从何而来？规模化数据如何获取？强化学习所需的环境如何扩展？

具身智能渴望更高质量的数据，也渴望更多的数据

VLA是目前具身智能的主流模型结构，擅长对象识别和语义泛化。但机器人一旦进入真实世界，真正的难点在于物理动作泛化：在物体、场景、状态不断变化的情况下，如何完成推、拉、折叠、插入等动作？

NVIDIA的DreamZero试图从模型层面解决这一问题，它属于World-Action Models（世界动作模型），核心思路是将视频预测融入机器人策略之中。

视频在这里代表世界状态的连续变化，动作与未来状态被放在同一框架中建模。DreamZero论文结果显示，相比VLA，它在真实机器人新任务和新环境泛化中取得了超过2倍的性能提升。

模型范式从VLA走向WAM，也推动了具身数据的变化。数据不能仅停留在“图像-语言-动作标签”，还必须描述动作、物体、场景、状态变化及交互结果之间的物理过程。

目前，具身智能训练数据大致可分为四类：真实机器人采集的遥操数据，UMI/DexUMI代表的传感化人类操作数据，EgoScale这类框架依赖的大规模第一视角人类行为数据，以及DreamDojo代表的世界模型生成的可交互训练环境。

过去几年，遥操是机器人数据采集的主流方式。它与机器人本体高度对齐，机器人看到什么、执行什么动作、传感器记录什么，数据天然贴近下游策略学习。

对于模仿学习和特定机器人任务而言，遥操数据质量很高。但其规模上限也十分明确：必须依赖真实机器人、真实操作者、真实场地以及任务重置。因此，遥操更适合作为少量高质量校准、动作对齐和微调数据，从数量上，很难成为机器人基础模型的主数据来源。

再深入来看，UMI要解决的核心问题，正是依赖真实机器人进行野外数据采集时遇到的效率和可扩展性瓶颈。它不将真实机器人带到每个真实环境中采集数据，而是让人类手持机械夹爪采集真实环境中的演示动作，再将这些演示迁移到机器人策略上。

DexUMI是这一思路在灵巧手方向的延伸。它是一个数据采集与策略学习框架，以人手作为自然操作接口，将灵巧操作技能迁移到不同机器人手上。具体做法是：通过可穿戴手部外骨骼缩小人手与机器人手之间的运动学差距，并提供直接触觉反馈；再借助机器人手部图像补全技术缩小视觉差距。DexUMI在两种灵巧机器人手平台上的平均任务成功率达到86%。

这里最关键的是数据采集范式的变化。过去是人远程操控机器人，让机器人留在采集循环里执行任务，即robot-in-the-loop；而UMI/DexUMI则是让人类操作被传感化、结构化，并尽量对齐到机器人动作空间，转向了human-in-the-loop。机器人不再需要亲自生产全部高质量数据，人类操作本身也可以成为可迁移的数据源。

UMI/DexUMI能产生高质量数据，但数量级仍然有限。它需要专门设备、组织化采集和特定接口，数据采集尚未真正退到后台。

这有点像特斯拉FSD的逻辑：如果机器人也能找到类似的数据飞轮，让采集自然发生在人类日常行为中，数量级问题才有可能被解决。

人类每天都在真实世界中运动、抓取、使用工具、完成任务，这些行为如果能够被动作标注并结构化，就可能成为机器人学习灵巧操作的规模化数据来源。

EgoScale就是一个面向灵巧操作的人类到机器人迁移框架。它使用了20,854小时带有动作标签的第一视角人类视频进行预训练，规模超过此前工作的20倍，让模型学习人类如何移动手腕、控制手部动作和接触物体，并将这些动作经验转换到22自由度机器人灵巧手可用的动作空间。

之后，EgoScale再使用少量人机对齐数据，把从人类视频中学到的动作表示适配到机器人的感知与控制系统。

从DexUMI到EgoScale，传感化人类数据的路径逐渐清晰：一端是高质量、可对齐的人类操作数据，另一端是可规模化扩展的第一视角人类行为数据。两者共同指向同一个变化：机器人训练的原料，正在从机器人自身经验，扩展到人类在真实世界中积累的物理经验。

数据规模之外，机器人还需要可扩展的训练环境。 后训练往往需要强化学习，但真实环境受限于机器人数量、场地、安全、维护以及任务重置成本，很难大规模试错。Jim Fan用一个形象的表述说明了这一瓶颈：“一百万个环境就需要一百万台机器人。”

DreamDojo回答的正是“机器人在哪里练习”的问题。它是一个机器人世界模型，使用约4.4万小时第一视角人类视频进行预训练，并通过连续潜在动作，让模型学习“一个动作会如何改变世界”。

完成目标机器人数据的后训练与蒸馏后，DreamDojo可以在动作条件下实时预测未来画面和世界状态，用于遥操作、策略评估以及基于模型的规划。论文显示，蒸馏后的模型在超过1分钟的交互中保持稳定。

由此可见，NVIDIA的数据策略已经从样本扩展走向环境扩展：DexUMI和EgoScale打开了人类物理智能的数据来源，DreamDojo则把人类视频中的交互经验，转化为可供机器人评估、规划和试错的世界模型环境。

物理AI的数据飞轮，要怎么开始转动？

如果将NVIDIA的数据路线放回物理AI的技术栈中审视，它指向的不仅是单个模型或单个机器人能力的提升，更涉及一个底层问题：人类与真实世界交互中产生的数据，如何被持续生产、沉淀，并转化为机器人训练资源。

一种更清晰的拆解方法，是将物理AI分为五层。最底层是物理现实，即人、物体、环境和真实交互；往上是World Compiler（物理世界编译层），负责采集、同步、表示和物理对齐，把真实世界中的交互转化为机器可以理解和训练的数据；再往上是世界模型，负责仿真、预测和生成式环境；之后是模型层，包括VLA模型、机器人策略和具身推理；最上层是应用层，包括机器人、人形机器人、自动系统和智能体。

沿着这个技术栈向下看，具身智能的竞争不会仅停留在模型层和应用层。人形机器人能否落地，VLA模型能否泛化，机器人策略能否完成更多任务，最终都取决于真实世界交互能否稳定进入训练闭环。

World Compiler这一层要解决的，正是这种转化问题。原始视频、动作捕捉、手部姿态、物体状态、触觉和场景信息，如果只是分散存在，很难直接支撑机器人模型训练。它们需要被采集、同步、校准、表示和物理对齐，才会从零散的真实交互，变成可训练、可复用、可跨本体迁移的数据资产。

其中最关键的是两类数据能力：高精度人类交互数据提供物理真实性，让模型理解动作、接触和物体变化之间的关系；自然真实环境中的人类行为数据提供世界覆盖率，让模型见到更多场景、任务和长尾行为。两者结合之后，具身数据才有可能从单次采集走向持续生产，形成物理AI自己的数据飞轮：真实世界持续产生交互，数据系统将其转化为训练资源，模型和机器人从中学习，再进入更多真实场景产生反馈。

换句话说，未来的深层竞争，在于谁能持续把真实世界交互转化为可复用的训练资源。

来源：https://36kr.com/p/3866956177855497

IDIA

延伸阅读

补充最近整理过的热点入口。