西湖大学王东林团队CVPR论文：机器人如何通古今知未来

首页

热心网友

转载

2026-05-16

想象这样一个场景：机器人伸手去拿桌上的杯子，刚把杯子抬起来，动作却突然停住，随后又把它放回原位，紧接着再次伸手去拿。同一个动作，它重复执行，仿佛完全忘记了刚刚做过什么。这类情况在实际应用中并不罕见：按钮明明已经按下，机械臂却还在反复按压；抽屉明明已经关好，它却还在持续推挤。

这些失败的根源，往往不是“看不清”，而是系统缺少一套能够模拟时空演变的“世界模型”。现有的视觉-语言-行动模型虽然能理解图像与指令，但在连续任务中，决策依然严重依赖当前时刻的观测。一旦任务流程变长——例如需要依次完成拿起、移动、放置、关闭等一系列动作——模型就容易出现动作重复或决策中断。其核心瓶颈在于，缺乏对时间维度的理解与记忆能力。

这正成为具身智能迈向实用化的关键障碍。主流方法基于“看到什么就做什么”的即时反应机制，在短任务中尚可应对，但在长序列任务中，动作不连贯、决策漂移的问题便会凸显。如何让智能体不仅能感知当下，还能记住过去、预判未来，构成了新的核心挑战。

在此背景下，西湖大学王东林团队的最新研究《HiF-VLA：Hindsight, Insight and Foresight for Vision-Language-Action Models》提供了一种新思路。HiF-VLA 不再简单堆叠历史图像或预测未来画面，而是将“运动”本身作为时间信息的核心载体，使模型能够同步建模过去的变化、当前的状态以及未来的趋势，从而实现更稳定、连贯的序列决策。

这项工作的价值，不仅体现在性能指标的提升上，更在于它提出了一种范式转变的可能：让机器人从“被动反应”转向“边思考边行动”。在具身智能逐步走入真实世界的进程中，这种对时间的理解能力，正在成为决定系统是否真正可靠、可用的关键。

机器人不再「忘动作」：HiF-VLA如何提升长序列任务成功率

在长序列任务测试集LIBERO-Long上，研究主要评估机器人连续完成多个动作（如拿取、放置、关闭）的能力。结果显示，HiF-VLA在单视角条件下的任务成功率达到94.4%，在多视角条件下达到96.4%。

作为对比，当前表现较强的基线方法OpenVLA-OFT，在单视角和多视角下的成功率分别为91.0%和94.0%。这意味着，新方法在单视角下提升了3.4个百分点，在多视角下提升了2.4个百分点。

深入来看，在测试的10个具体任务中，有多个任务的成功率达到100%，最低的任务也有76%的成功率。这表明其性能提升是整体性的，而非依赖个别优势任务拉高平均。一个值得注意的现象是：该方法在单视角下的表现，已接近甚至达到了其他方法在多视角下的水平。这暗示着，其性能增益主要来源于对时间信息的有效建模，而非单纯依靠更多的视觉输入。

在CALVIN跨环境泛化任务中，研究在A、B、C三个已知环境中训练模型，并在全新的D环境中进行测试。评价指标是“连续成功完成任务数”，即模型能不间断地连续完成多少步操作。结果显示，新方法在单视角下平均完成4.08个任务，在多视角下达到4.35个。而基线方法OpenVLA-OFT约为4.10，Seer约为4.28，RoboVLMs约为4.25。

可以看到，新方法在多视角条件下取得了最高的4.35，相比基线提升约0.25个任务。这个提升颇具意义，因为该指标是累积性的，中间任何一步失败都会导致计数中断。数值越高，说明模型在长序列决策中的稳定性和长期规划能力越强。

那么，性能提升是否以巨大的计算开销为代价呢？研究进一步分析了效率。当引入基于图像的未来子目标预测时，成功率可达91.8%，但决策延迟增至115.9毫秒，是基线的1.59倍。当采用堆叠历史图像帧的方法时，成功率反而降至90.4%，延迟飙升至229.5毫秒，是基线的3.15倍。这说明，直接处理大量图像信息不仅计算成本高，还可能干扰模型判断。

相比之下，HiF-VLA的方案显得高效许多：仅加入未来推理时，成功率为92.2%，延迟仅82.7毫秒，几乎无额外开销；仅加入历史信息时，成功率同样为92.2%，延迟为117.7毫秒；当历史与未来信息结合后，成功率提升至93.2%，延迟为121.6毫秒。整体来看，新方法在提升性能的同时，计算成本远低于堆叠历史帧的方案，证明使用运动信息比直接使用图像历史更加高效。

研究还测试了模型对时序长度的扩展能力。随着历史长度从4逐步增加到8、16、32，性能在长度为8时达到峰值（单视角94.4%，多视角96.4%），继续增加长度反而导致性能下降，原因是信息过载带来了冗余和干扰。在延迟方面，传统方法的计算成本会随历史长度线性增长，长度8时延迟增加约4.5倍；而新方法的延迟基本保持稳定，仅轻微增长，展现了在时间维度上更优的可扩展性。

最终，在真实机器人实验中，研究设置了多个长序列任务进行验证。在“按顺序按按钮”任务中，基线方法的成功率为17.4%，而新方法提升至34.2%，接近翻倍。在“覆盖与堆叠”任务中，基线为33.3%，新方法达到57.9%，提升了24.6个百分点。在“放置”任务中，基线约为62.5%，新方法约为65%，提升幅度虽小，但表现更加稳定。

研究人员分析认为，基线方法难以判断按钮是否已被按下，因为状态变化非常细微；而新方法能够利用时间变化信息来捕捉状态转变，因此在复杂任务中优势明显。这进一步证实，引入时间信息能显著增强机器人在长序列任务中的决策鲁棒性。

时间建模方法的系统性对比与实验设计

为了全面评估，研究在实验设计上进行了系统规划。在模拟环境中，采用了LIBERO数据集的10个长序列任务，以及CALVIN数据集的跨环境泛化任务。在真实机器人实验中，每个任务收集了100条示范数据用于训练，并在测试阶段对每个任务执行20次，以评估模型的稳定性和泛化能力。

在输入信息设计上，模型同时接收三类信息：当前画面（感知当前状态）、历史运动（表达过去的动态变化）以及语言指令（提供任务目标）。这种设计使得模型能够在时间维度和语义层面进行联合决策。

研究团队设置了多种基线方法进行系统比较：第一种仅使用当前观测，不含任何时间信息；第二种通过堆叠历史图像引入时间信息，但存在信息冗余和计算成本高的问题；第三种通过预测未来图像作为子目标来引导决策，但容易产生误差且稳定性差。相比之下，新提出的方法用运动信息替代图像来表示时间变化，从而减少了冗余，提高了建模效率。

通过消融实验，研究进一步剖析了不同设计选择的影响。首先在历史长度上，实验表明最优长度为8，过短则信息不足，过长则引入冗余干扰判断。其次在历史信息的使用方式上，比较了两种策略：一种是将历史信息直接输入视觉语言模型，此时成功率为92.8%；另一种是将历史信息注入到后续的决策模块中，成功率则提升到94.4%。这一结果说明，将历史信息直接混入前端视觉语言处理流程，可能会干扰其原有的理解能力；而在决策阶段引入历史信息，能更有效地发挥其作用。

从「看到就做」到「边想边做」：具身智能的范式演进

这项研究首先直指一个核心问题：传统模型决策时过度依赖当前观测，忽视时间信息，导致动作不连贯，在长序列任务中易失败。问题的根源并非视觉能力不足，而是缺乏对时间流的建模能力。

基于此，研究提出了一个关键发现：运动信息比原始图像更适合表征时间变化。图像中包含大量静态背景信息，而运动信息则过滤了冗余，只保留真正发生变化的部分，因而更高效、表达力更强。

这一发现带来了直接的影响：机器人的决策过程，从“感知-动作”的单向链条，转变为同时考量过去、现在与未来的综合过程。换句话说，从简单的“看到就做”，升级为基于历史经验、当前状态及未来预测共同驱动的“边想边做”。

在工程价值上，实验数据表明，该方法不仅在性能上取得显著提升（最高成功率96.4%），同时在计算效率上具备优势，避免了传统方法可能带来的数倍计算开销。此外，它在不同环境中展现出更强的泛化能力，并且在真实机器人实验中同样有效，预示着可观的实用化潜力。

更进一步看，这项工作推动了一种智能范式的演进：从“看到就做”的视觉-语言-行动模型，走向“边想边做”的世界-行动模型。HiF-VLA改变的不仅是模型架构，更是在重新定义机器人应具备的能力边界。

过去的系统更像被动的执行者，只对瞬时输入做出反应；而在新范式下，机器人开始具备连续决策的能力，能够在行动中记忆刚发生的状态，判断当前所处的阶段，并预判接下来的步骤。这种转变意味着，机器人不再只是执行孤立的动作，而是能够理解并管理一个完整的任务流程，并在过程中动态调整行为。

这也标志着，具身智能的发展正从“感知驱动的反应系统”，迈向“时间驱动的推理系统”。只有当模型真正掌握这种能力，机器人才能在复杂、动态的真实世界中稳定工作，而不仅仅是在受控的实验室场景中完成预设脚本。

HiF-VLA 背后的科研力量：王东林与黄思腾团队

本论文的通讯作者王东林，现任西湖大学人工智能系副主任，是机器智能实验室（MiLAB）的创始人与负责人，同时也是西湖机器人科技（杭州）有限公司的创始人。

他本科与硕士毕业于西安交通大学电子信息工程专业，后在加拿大卡尔加里大学获得电子与计算机工程博士学位，并在加拿大从事博士后研究。此后，他在美国纽约理工学院任教并晋升为副教授，于2017年回国加入西湖大学，成为工学院首批全职教师之一，创建了机器智能实验室。他还担任国家科技创新2030重大项目首席科学家，并入选国家人社部高层次人才计划。

其研究方向长期聚焦于机器人学习与智能决策，重点关注强化学习、元学习及机器人行为智能，目标是让机器人具备自主学习、快速适应新环境并完成复杂任务的能力。研究不仅关注感知理解，更强调从感知到决策再到行动的完整闭环，尤其是在长序列任务和真实环境中的稳定执行能力。

在学术成果方面，他已发表百余篇论文，活跃于机器人学习与强化学习等前沿领域。其团队是国内最早专注机器人学习的团队之一，提出了国际首个四足机器人VLA大模型、人形机器人VLA大模型、奖励无关人类反馈强化学习等创新工作。其近期合作的AAAI 2026论文斩获最佳论文奖，同时带领研发的通用行为专家大模型GAE也达到了人形机器人运动领域的国际领先水准。

另一位通讯作者黄思腾，现任阿里巴巴达摩院算法专家，博士毕业于浙江大学与西湖大学联合培养项目，在机器智能实验室完成博士研究，师从王东林教授。此前，他于武汉大学计算机科学专业获得本科学位。博士期间，他曾在阿里巴巴通义实验室与达摩院进行长期研究实习，整体经历贯穿学术研究与工业界实践。

其研究方向主要聚焦于具身智能、多模态大模型及高效人工智能，核心关注如何让模型同时理解图像、视频、语言及物理世界中的动态信息，并在真实环境中进行感知、推理与生成。研究不仅涉及多模态理解与生成，还强调模型在数据、计算和存储等方面的效率优化，致力于构建能在现实世界中高效运行的统一智能系统。

在学术成果方面，他已在相关领域发表三十余篇论文，涵盖计算机视觉、多模态学习与机器人方向，并活跃于顶级国际会议和期刊。他参与了多项具身智能与多模态模型方向的研究工作，包括视觉语言行动模型及统一世界模型等，代表性工作涉及HiF-VLA、RynnVLA系列以及WorldVLA等框架，推动了机器人在长序列任务与真实环境中的能力提升。