游乐游手机版
首页/业界动态/文章详情

最新论文:具身机器人研究不能只靠VLA和世界模型

时间:2026-06-10 14:05
当前具身智能依赖的视觉-语言-动作模型与世界模型范式存在局限,难以实现通用机器人。最新研究指出需补齐物理数据引擎、跨具身重定向、物理扎根世界模型及自我改进部署循环四个缺失组件,才能将物理经验转化为有效监督信号。

更多的机器人示范数据、更大的视觉-语言-动作(VLA)模型,再配上更懂“物理定律”的世界模型,就能实现“通才机器人智能”吗?

这听起来像是通往通用机器人的一条“明路”,也是当前具身智能领域的主流研究范式。不过,最近一篇刚挂上 arXiv 的立场论文,直接点出一个“打脸”的结论:这条路大概率走不通。

这篇论文来自具身智能数据公司 Motoniq 的团队及其合作者。他们不仅指出了现有 VLA 和世界模型研究范式的局限性,还一针见血地揭示了实现真正物理智能所缺失的“四个组件”,并为未来研究指明了方向。

论文链接:https://arxiv.org/abs/2606.06556

简单来说,通用机器人真正缺的,远不止一个更大的策略模型。关键在于,我们需要一套能够将非结构化的物理行为,转化为结构化监督信号的完整机制。只有补齐了数据接口、具身接口、世界模型接口和奖励接口这四个关键组件,机器人才有可能不再单纯依赖预先准备好的示范数据,而是在更广阔、更真实的物理世界中自主学习。

图|从物理经验到机器人可用的监督。

当然,这篇立场论文并非在否定 VLA 模型和世界模型的价值。相反,它们更像是整套物理智能系统中的一个核心“大脑层”,只是这个大脑的强大,离不开底层数据、本体硬件、物理动力学、奖励信号和部署反馈的全方位支撑。

为什么说现有范式不完整?

研究团队梳理了当前具身智能研究的三大主要范式:机器人原生监督、视频弱监督以及仿真与基于世界模型的数据生成。每个范式都有进展,但短板也同样明显。

机器人原生监督:进展与瓶颈

目前主流的机器人学习,依然依赖于机器人能直接理解的数据形式,比如“观测-动作”轨迹、任务标签、语言指令和成功信号。像 BridgeData V2、DROID、Open X-Embodiment 这些数据集的出现,极大地扩充了这类数据的规模,也为 OpenVLA、GR00T N1、Gemini Robotics 等系统提供了训练基础。但问题在于,最有效的监督信号,至今仍然来自那些已经经过“接地”处理的机器人轨迹。动作标签、任务描述、成功/失败信号,要么在数据采集时直接记录,要么在后期费力补齐。VLA 的能力扩展,本质上还是建立在这些预先整理好的“高级食粮”之上。

弱监督视频:信息丰富,却难以直接用

互联网上浩瀚的人类操作视频,蕴含着行动的过程、物体的运动和接触的时间点。但它们无法直接转化为机器人可执行的动作。现有工作更多是把这类视频当作“间接监督”:R3M 用它来预训练视觉表示,VIP 用来刻画任务进度,LAPA 和 UniVLA 则尝试从中学习潜在的动作编码,再映射到机器人控制。但视频中的“信息”和机器人学习所需的“监督”之间,存在着一条鸿沟。潜在动作并非控制指令,进度信号也未必能直接用作奖励,更何况,人类的操作策略,对于特定机器人硬件来说,往往是不适用的。

生成物理经验:仿真与世界模型的局限

受限于真实机器人数据采集的高昂成本,研究团队开始借助仿真环境和世界模型来生成训练数据。从 MimicGen、RoboCasa365、RoboGen 等数据生成方法,到 DreamerV3、V-JEPA 2 等控制与交互仿真探索,再到 ParticleFormer、ContactGaussian-WM 等面向点云和接触操作的建模工作,进展不可谓不快。但现有的世界模型有明显局限。关键在于,除了生成逼真的未来画面,更核心的是能否保留那些决定控制成败的物理变量:几何形状、物体状态、接触点、力、稳定性、材料响应。如果模型忽略接触、质量和摩擦这些底层物理量,那么它预测出的结果,即便视觉上再完美,也无法作为可靠的机器人监督信号。

物理智能缺失的四个组件

在深入回顾现有研究后,研究团队一针见血地指出,下一步研究的突破口,或许并不在于把模型做得更大,而在于补齐以下四个缺失的组件:

1. 物理数据引擎与具身自动标注

要让机器人利用更广泛的物理经验,首先得有一个“物理数据引擎”。当前的机器人学习大多依赖精心整理好的训练样本,而人类视频、可穿戴传感器数据、工厂运作流程、甚至失败的轨迹,虽然蕴含着丰富的物理交互信息,却因为格式不统一而难以直接利用。为此,团队提出了“具身自动标注”(Embodied Autolabelling)的概念。核心思路是指从原始数据中自动识别任务的起止点、操作对象、接触事件、状态变化和结果,并完成时间对齐、事件分割和状态估计。这样一来,人类视频和可穿戴数据不仅能用来学习任务目标,还能帮助机器理解人的动作意图和交互方式。

2. 跨具身的任务保留重定向

不同机器人硬件在运动学、动力学、传感器和接触面上差异显著。如何将一个潜在物理动作或人类演示,有效迁移到另一台机器人上,同时保留其“对世界产生的预期效果”?这就是跨具身任务保留重定向的核心挑战。它关注的不再是复制动作本身,而是保留任务相关的关键物理变化,比如物体的位移、姿态变化、接触状态、插入时的对齐关系等。

3. 物理扎根的世界模型

未来的世界模型,不需要能画出多么漂亮的画面,但必须能精确预测动作带来的物理后果:这个物体会不会滑落?那个接触点会不会丢失?抽屉会不会卡住?这需要模型能正确预测与任务相关的几何形状、接触点、作用力、约束条件、材料属性以及任务进度。研究团队强调,这类模型还必须具备可靠的不确定性估计能力,知道自己什么时候“猜不准”。

4. 自我改进的部署循环

机器人执行动作后,如何知道结果是否有效?这需要一种“任务条件化的奖励扎根”机制。当部署轨迹能被自动评估为成功、失败、部分进展或恢复之后,它们就不再仅仅是记录,而是转化为了宝贵的监督信号。系统可以基于这些信号进行闭环迭代,精准定位失败的根源,并以此来更新前端的决策模型,而不是笼统地进行一次全量重训练。

图|下一代机器人:从物理经验到物理智能

未来方向

从目前来看,各类物理经验都只提供了不完整的监督:机器人数据缺标签,视频数据缺动作,可穿戴数据不绑定具体机器人,仿真则受限于物理保真度。未来的关键,是构建一个统一的“物理数据引擎”,将这些异构来源的数据视为同一底层物理结构的不同视图,并最终转化为结构化的、可用于训练的标签。

同时,世界模型在表示选择上尚未形成统一方案。无论是像素表示、物体中心表示,还是点云、网格、神经场、Gaussian Splatting 等三维表示,都有各自的局限性,尤其在对接触、受力和材料响应的建模上还远远不够。未来的方向是发展物理扎根的世界模型,并显著提升其不确定性量化能力。

跨具身重定向方面,目前清晰的可实现路径和验证方法依然缺失。未来的研究重点,需要从姿态保留转向任务效果保留——不再执着于复制动作的形式,而是保留动作对世界产生的实际效果。

最后,部署失败带来的反馈,往往难以沉淀为有针对性的改进信号。未来需要建立一种任务条件化的闭环机制,使系统能够精确区分进度、失败、恢复和成功等不同状态,并据此更新相应组件,而不是笼统地责备整个系统。

来源:https://36kr.com/p/3845826932443655
上一篇外版iPhone用苹果AI,别急着买,先看这几个大坑 下一篇macOS 27现支持iPhone镜像窗口新纵横比调整
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
长安汽车明年一季度发布首款车载人形机器人小安
业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略,采用“1+N+X”布局,联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm,体重69kg,移动速度0 8m s,具备40个自由度,续航超2小时。预计明年一季度发布首款车载组件机器人,已在广州车展展示。

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影
业界动态 · 2026-06-29

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影

3月25日,光通信领域迎来又一个里程碑:中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司,成功实现了2 5Pb s 24芯光纤超大容量实时光传输,再次刷新了世界纪录。 这一研究成果不仅入选国际顶级光通信会议OFC(2026)并荣获“高分论文”称号,还受国际权威SCI

美国调查18万辆特斯拉Model3车门应急释放装置易找性
业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查,焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿,不意味着立即召回,但可能引发后续监管措施。

doc个人图书馆停服 创始人称无偿转让失败
业界动态 · 2026-06-29

doc个人图书馆停服 创始人称无偿转让失败

运营长达20年,累计服务8000万用户的360doc个人图书馆,最终还是迎来了谢幕时刻。2026年5月1日,这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失,而是始终未能寻得一位能够安全接管的合适人选。 创始人蔡智在告别信中坦言,近两个月来,他一直在尝试将360doc无偿转

年Q1随身WiFi实测安全靠谱高性价比机型推荐
业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月,艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证,紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后,折射出一个清晰的市场趋势:移动办公、户外出行、宿舍上网等场景的需求正在快速增长,随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿