NVIDIA发布AI机器人视觉模型看视频学技能实现自主操作_AI热点日报

这项由NVIDIA主导，联合多家顶尖研究机构完成的突破性研究，已于2026年2月正式发表，研究编号为arXiv:2602 15922v1。对于技术细节感兴趣的读者，可以通过这个编号查阅完整的论文。科幻电影里，机器人看一眼人类操作就能学会复杂技能的桥段，正在走出银幕。NVIDIA的研究团队最近开发了

这项由NVIDIA主导，联合多家顶尖研究机构完成的突破性研究，已于2026年2月正式发表，研究编号为arXiv:2602.15922v1。对于技术细节感兴趣的读者，可以通过这个编号查阅完整的论文。

NVIDIA推出机器人界的

科幻电影里，机器人看一眼人类操作就能学会复杂技能的桥段，正在走出银幕。NVIDIA的研究团队最近开发了一套名为“世界行动模型”的全新AI系统，它就像是给机器人装上了一颗能“预见未来”的魔法水晶球。更关键的是，这个AI不仅能预测接下来会发生什么，还能同步规划出机器人应该执行的动作——这好比一位天才演员，能够边看电影边即兴表演出后续剧情。

如果把传统机器人比作只会按固定菜谱操作的厨师，那么这套新系统则像是一位经验丰富的主厨。它不仅能预判加入某种调料后菜品的风味变化，更能根据这个预判立刻调整下一步的烹饪手法。这种能力，让机器人得以在完全陌生的环境里，面对从未见过的物品，执行从未练习过的任务。

一、机器人的“视频预言术”：看懂世界运转的秘密

要理解这项名为DreamZero的研究为何特别，得先看看现有机器人AI的局限。目前主流系统更像一个只会“照镜子”模仿的学生，通过观察人类演示来复制动作的每一个细节。这种方法在重复性任务上有效，可一旦环境稍有变动，或者遇到新物件，机器人就容易“手足无措”。

举个例子，一个传统机器人学会了在白色桌面上用红色马克杯倒水，但如果换成黑色桌面和蓝色杯子，它很可能就不知道该怎么办了。这就像一个只能在固定舞台上表演的演员，换了布景就忘了台词。

DreamZero采用了截然不同的策略。它不满足于模仿动作，而是像一位天才物理学家，通过分析海量视频来理解物理世界的基本法则——重力如何作用、液体如何流动、物体如何碰撞。视频成了它的物理教科书。

其核心在于一套“双重预测”机制。面对一个场景时，它的“大脑”会同步产生两种推演：一是“如果我执行某个动作，世界会变成什么样”；二是“为了达成目标，我此刻应该怎么做”。这就像一位顶尖棋手，既能预判未来几步的棋盘局势，又能立刻决定当下的最佳落子。

正是这种预测能力，赋予了DreamZero真正的泛化本领。当遇到一个全新指令，比如“把香蕉放到木架子上”，它会调动已掌握的物理知识进行推理：香蕉的形状、木架的结构、抓取的力度、放置的角度……整个过程，如同一位经验丰富的搬家工，即使面对全新的家具组合，也能迅速规划出最优搬运方案。

研究团队用实验验证了这种能力的强大。他们让DreamZero尝试了十种完全未在训练中间出现过的新任务，包括解开鞋带、摘掉人体模型头上的帽子、用画笔作画等。结果显示，其平均成功率达到了39.5%，而传统机器人系统在这些任务上的成功率几乎为零。要知道，这些都是机器人从未练习过的技能，39.5%的成材率已相当惊人。

更值得关注的是其环境适应力。所有评估实验都在陌生环境中进行，使用的也都是全新物品，但DreamZero依然能理解任务本质并找到解决方法。这就好比让一位厨师进入一个完全陌生的厨房，使用从未见过的厨具，却依然能做出美味菜肴。

二、从看电影到会干活：跨越物种的学习奇迹

DreamZero最令人称奇的能力之一，是它能通过观看其他机器人甚至人类的视频来学习新技能。这种跨越不同身体结构的学习，就像让一个人通过观看鸟类飞行的视频来学习驾驶飞机。

在一项特别设计的实验中，研究团队让DreamZero观看了另一种双臂机器人YAM的工作视频，以及人类第一人称视角的操作视频。这些“老师”与DreamZero自身控制的AgiBot G1机器人在外形和动作方式上差异显著，好比让人类观察章鱼如何移动来学习游泳。

结果令人惊讶：仅仅观看了20分钟的机器人视频和12分钟的人类视频后，DreamZero在处理新任务时的成功率就提升了42%以上。这种提升幅度，堪比一个学生通过观看几段教学视频，就从门外汉变成了半个专家。

这种跨“身体”学习能力的原理在于，DreamZero真正掌握的是任务的物理本质，而非具体的动作序列。看到人类用手指拧开瓶盖，它学到的不是“用手指拧”这个动作，而是“对瓶盖施加旋转力矩”这个物理概念。随后，它会根据自己的机械手特性，找到实现这一物理效果的最佳方式。

更令人印象深刻的是其少样本适应能力。研究团队做了一个大胆实验：让一个专为AgiBot G1机器人训练的系统，仅通过30分钟的“自由玩耍”数据（即机器人随意摆弄物品的记录），就学会了操控完全不同的YAM机器人。这好比让一位只开过轿车的司机，仅在卡车上练习半小时，就能熟练驾驶卡车应对复杂路况。实验中，快速适应后的DreamZero不仅能控制新身体，还能理解“把橘子放进南瓜里”这类新指令。

这种能力源于对物理世界深层规律的理解。对DreamZero而言，不同的机器人身体只是执行物理操作的不同“工具”，如同雕刻家可用不同的刻刀创作。一旦掌握了操作的本质，换件“工具”并非难事。

研究团队认为，这种跨身体学习能力可能是未来机器人技术发展的关键。相较于为每一种机器人收集大量专用训练数据，让机器人从现有海量人类视频（如YouTube上的数十亿小时内容）中学习，显然经济高效得多。

三、实时响应的魔法：让140亿参数模型跑出赛车速度

让一个拥有140亿参数的巨型AI模型实时控制机器人，其难度不亚于让大象在钢丝上跳舞。DreamZero面临的核心挑战是：如何让这个庞大的“大脑”在几十毫秒内做出反应，以满足机器人实时控制的需求？

传统的视频生成模型如同精雕细琢的艺术家，生成一段短视频可能需要几分钟甚至几小时。但机器人控制要求闪电般的反应，必须在不到200毫秒内给出指令，否则动作就会变得迟缓笨拙，就像网络延迟严重的在线游戏。

为解决速度难题，研究团队开发了一套完整的优化策略，如同对赛车进行全方位改装。他们从系统架构、计算实现和模型设计三个层面入手，最终实现了38倍的速度提升，将单次计算时间从5.7秒缩短至150毫秒。

在系统架构上，团队采用了异步执行策略。传统方式是机器人等待AI计算完成再行动，如同排队买票。新方法则让机器人在执行当前动作时，AI已在后台计算下一个动作，类似边走路边思考下一步方向，大幅提升了整体效率。

在计算实现上，多种巧妙技术被应用。其中，“分布式计算”策略将原本需顺序执行的两个计算过程分配到两块GPU上并行处理，好比两位厨师同时准备不同的菜品。“智能缓存”技术则让系统记住先前计算结果，遇到类似情况直接调用，如同学生考试时套用熟知的解题思路，此举将所需计算步骤从16步减至4步。

最具创新的是模型层面的“DreamZero-Flash”改进。传统训练让AI同步学习预测视频和动作，如同让学生同时练习画画和写字。Flash版本则采用“错位训练”：在视频预测尚模糊时，就让AI开始预测精确动作。这样训练出的模型在快速推理时，仍能给出准确指令。

这些优化的累积效果显著。最终系统能以7Hz的频率为机器人提供动作指令，即每秒做出7次精确调整。这个速度足以支持流畅的实时控制，让机器人动作自然协调。更重要的是，速度的提升并未牺牲智能水平，快速版本与原始版本在任务完成质量上几乎无差别，实现了“又快又好”。

四、从多样化数据中学习：打破重复训练的枷锁

传统机器人训练如同教孩子学钢琴，对着同一首曲子反复练习数百遍。DreamZero则采用了不同的策略，更像是让孩子聆听世界各地不同风格的音乐，从中领悟乐理的精髓。

在数据收集阶段，研究团队刻意避免了“重复演示”模式。他们没有让机器人对同一任务练习成百上千次，而是收集了500小时覆盖22个不同真实环境（家庭、餐厅、超市、办公室等）的多样化数据。这好比让学生在多种场所学习，而非局限于固定教室。

更有趣的是“任务轮换”机制：当某个任务被演示50次后，便从清单中移除，迫使数据收集者不断提出新任务。这就像一位永不重复菜谱的厨师，通过不断尝试新组合来掌握烹饪的核心原理，而非只会几道拿手菜。

实验结果证明了多样化学习策略的优越性。使用多样化数据训练的DreamZero，在处理新任务时的成功率，比使用重复数据训练的传统系统高出50%以上。这如同比较博览群书的学生与只读一本教科书的学生，面对新问题时，前者往往表现更佳。

DreamZero还能从“不完美”的演示中学习。传统训练需要专家级的完美演示，而DreamZero可以从普通人包含犹豫、纠错的日常视频中学习。关键在于，它关注的是行为背后的物理逻辑，而非表面形式。例如，看到一个人尝试三次才打开瓶盖，它学到的是“需要施加足够的扭转力矩”以及“如何调整力度和角度”。

研究团队的一个关键发现是：数据的多样性比单纯的数量更重要。使用500小时多样化数据训练的系统，性能远优于使用同样时长但高度重复数据训练的系统。这就像学语言时，读100篇不同主题的文章比把同一篇文章读100遍更有效。

这一发现意义重大。它意味着未来训练通用机器人系统，可能不再需要为每个具体任务收集大量重复数据，而是可以通过覆盖面更广的多样化行为数据来实现，这将极大降低机器人技能学习的成本与难度。

五、从实验室到现实世界：真实场景下的表现验证

验证DreamZero的真实能力，关键不在理想的实验室环境，而在杂乱复杂的现实世界。研究团队设计了一系列严苛测试，如同让刚学会开车的学生直接上路考试。

在“已见任务”测试中，团队选择了10个训练中间出现过的基本任务类型，如拿取物品、堆叠碗盘等，但测试环境和物品全是新的：不同的桌子、颜色、材质、房间布局。这好比让一位在自己厨房得心应手的厨师，到朋友家使用完全陌生的厨具做菜。

结果令人印象深刻：DreamZero的平均任务完成率达到62.2%，而现有最先进的机器人系统（即使经过数千小时预训练）平均完成率仅为27.4%。那些从零开始训练的传统系统，成功率则近乎为零。

在更困难的“未见任务”测试中，团队设计了10个训练数据中完全未出现过的新任务，如解开鞋带、从人体模型上摘帽子、用笔画圈等。这相当于让只学过基础数学的学生去解复杂物理题，考验的是真正的理解与推理能力。

即便面对这些全新挑战，DreamZero依然表现出色，平均成功率达39.5%，而传统系统成功率不足1%。在某些任务上，如“从人体模型上摘掉帽子”，其成功率高达85.7%，“与人握手”也达到59.2%。

团队还测试了其任务专门化能力。针对折叠T恤、水果装袋、清理桌子三个复杂任务，仅用12-40小时的额外数据训练后，DreamZero在新测试环境中的平均任务完成率仍达到79.8%，展现了强大的环境适应力。

一个有趣的现象是，DreamZero生成的预测视频与实际执行动作之间具有高度一致性。它在“脑海”中的预测，几乎总能与实际动作完美匹配，就像一位棋手能准确预测并执行计划中的走法。

当然，系统也有局限性。大多数失败案例源于视频预测的错误，而非动作执行问题。也就是说，当它对“接下来会发生什么”的预测出错时，会忠实地执行这个错误预测。这表明，提升视频生成模型的准确性，将直接改善整个系统的性能。

六、技术突破背后的科学洞察

DreamZero的成功不仅是工程突破，更验证了一系列关于智能与学习的深层科学假设，这些洞察可能改变我们对机器学习与人工智能的基本理解。

首先是“世界模型”的重要性。传统方法专注于输入输出的直接映射，如同教孩子背乘法表。DreamZero则更注重理解乘法的本质，使其能推理出未见过的计算题答案。通过预测行动后果，它建立了对物理世界的内在理解，这种理解是可指导行动的实用智慧。

其次是对多模态学习的深刻见解。DreamZero同时处理视觉、语言和动作信息，且三者深度融合，而非简单拼接。如同一位指挥家，能协调旋律、节奏与情感，将其融合为完整的艺术作品。研究发现，视频预测的质量直接决定动作执行的准确性，这提示空间感知与运动控制在深层次上是统一的。

第三是自回归架构的优势。与传统双向处理模型不同，DreamZero采用类似语言模型的自回归架构，逐步预测未来。这不仅提升了计算效率，更能自然处理时间序列信息，保持动作的流畅与一致。

研究还验证了扩展规律：更大的预训练视频模型确实能带来更好的控制性能。从50亿参数模型升级到140亿参数模型，任务成功率显著提升。这表明机器人领域也可能存在类似语言模型的“扩展定律”。

但最碘伏性的发现或许是数据多样性的重要性。研究表明，数据的多样性比单纯的数量更重要。这挑战了传统的“大力出奇迹”思维，提示我们应更关注数据的质量与覆盖面。

这些科学洞察不仅对机器人技术意义重大，也可能影响更广泛的人工智能研究。它们提示，真正的智能或许需要对世界的深入理解，而不仅仅是模式匹配与统计学习。

七、未来展望：通向智能机器人的新道路

DreamZero为机器人技术的发展指明了一条新路径，可能彻底改变我们与机器人的共存方式。研究团队在论文中既坦诚讨论了当前局限，也展望了令人兴奋的未来方向。

在计算效率方面，尽管已实现38倍提速，但DreamZero目前仍需两块高端GPU实现实时控制，对普通消费者而言成本仍高。不过，随着硬件进步与模型优化技术的发展，这一问题有望在未来几年内解决。轻量级、高性能的版本值得期待。

在精细操作方面，DreamZero在需要毫米级精度的任务（如插钥匙、精密装配）上仍有提升空间。但团队指出，这种限制可能并非根本性的。近期研究表明，世界动作模型在高精度操作任务上可能具备独特优势，因为它们能更好地理解物理接触与力的传递。

最令人期待的是长期推理能力的提升。目前的DreamZero主要是一个快速、直觉式的“系统1”反应型系统。未来的版本可能会整合“系统2”式的深度推理能力，能够制定复杂的长期计划，如同一位既能处理日常事务，又能谋划长远战略的项目经理。

在身体适应方面，未来发展可能呈现两个方向。一方面，自由度更高的机器人可能需要更多适应数据；另一方面，类人形机器人或因其与人类动作的相似性，能更高效地从海量人类视频数据中学习。

研究团队还构想了一个宏大图景：利用互联网上数十亿小时的人类活动视频（如YouTube内容）训练机器人。这几乎为通用机器人的发展提供了无限的知识源泉。

在实际应用层面，该技术有望在多个领域产生影响。家庭服务机器人可能因此适应不同家庭的布局与习惯，无需繁琐设置；工业机器人或能更快适应新生产线；在深海、太空等特殊环境作业的机器人，或许能在无直接训练的情况下处理意外状况。

当然，挑战依然存在。随着机器人变得更智能、更自主，如何确保其行为安全可控、保持系统透明度与可解释性，将成为重要课题。

说到底，DreamZero代表的不仅是一项技术进步，更是我们对智能本质理解的深化。它表明，真正的智能或许不在于完美执行预设程序，而在于理解世界、预测未来、适应变化的能力。这种洞察，或许正指引我们走向一个人与真正智能的机器人和谐共存的未来。

从实验室原型到走进千家万户的日常助手，道路依然漫长。但DreamZero已然让我们瞥见了未来的曙光——那是一个机器人不再是冰冷工具，而是能够理解需求、适应环境的智能伙伴的时代。

Q&A

Q1：DreamZero和传统的机器人AI有什么区别？

传统机器人AI更像只会“照镜子”模仿的学生，只能重复练习过的固定动作。DreamZero则像是理解了物理原理的学者，它通过观看大量视频学习物理世界的运作规律，能够预测“如果我这样做会发生什么”，并基于预测来决定行动。这使其能在陌生环境中处理从未见过的任务。

Q2：DreamZero为什么能通过看视频就学会新技能？

其核心在于“双重预测”机制。面对场景时，它会同步产生两种预测：一是行动会导致世界发生什么变化，二是为达成目标应如何行动。这种能力让它能从视频中理解物理规律的本质，而非仅仅记住表面的动作序列。

Q3：普通人什么时候能用上DreamZero这样的机器人？

目前DreamZero仍需两块高端GPU实时运行，成本较高。但研究团队已实现38倍的速度优化，随着硬件发展与技术优化，预计几年内就会出现适合普通消费者的轻量级版本。家庭服务机器人是最有希望的应用领域之一，它们能自动适应不同家庭环境，无需复杂设置。