港大与小鹏机器人联合研发DIAL决策范式机器人效率提升十倍

首页

热心网友

转载

2026-05-16

让机器人“把桌上的苹果放进篮子里”，看似简单的指令背后，却蕴含着一系列复杂的感知、推理与执行挑战：机器人需要精准“识别”物体，深刻“理解”任务意图，并规划出一连串连贯的抓取、移动和放置动作。近年来，视觉-语言模型（VLM）的迅猛发展为机器人领域注入了新活力，端到端的视觉-语言-动作（VLA）模型应运而生，旨在让机器人根据自然语言指令和视觉输入直接生成动作序列，这被视为迈向通用机器人的一条极具潜力的技术路径。

然而，这条道路充满挑战。现有主流方法往往将强大的VLM降级为单纯的“特征提取器”，试图将提取出的多模态特征直接映射到低层级的电机控制指令上。这种做法，如同让一位战略指挥官去直接调控每个士兵的肌肉动作，不仅未能充分发挥VLM高层级语义理解和推理的潜力，还常常导致模型训练不稳定，甚至损害其预训练阶段获得的丰富知识。那么，是否存在一种创新架构，既能像“大脑”一样进行高层规划，又能像“小脑”一样精准控制，并且两者能够高效协同、共同进化？

来自香港大学、小鹏机器人及北卡罗来纳大学教堂山分校的研究团队，提出了一个名为DIAL的突破性框架，为上述难题提供了一个精巧而有效的解决方案。其核心创新在于，引入了一个可微分的“潜在意图瓶颈”，在高层认知模块与底层控制模块之间，架起了一座严格约束且信息通畅的桥梁。

论文标题：DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA

论文链接：https://arxiv.org/pdf/2603.29844v1

项目主页：https://xpeng-robotics.github.io/dial

一、现有方法的困境：意图与动作的耦合难题

要深入理解DIAL的巧妙设计，首先需要审视当前VLA模型面临的两大核心困境。

第一类是分层规划模型。这类方法通常让大型模型（如VLM或大语言模型）生成高级规划，例如文本形式的子任务列表或可执行代码，再由一个独立的底层控制器去解析并执行。这种思路清晰、可解释性强，但其瓶颈在于，高层规划器与底层执行器之间往往存在不可微分的“语义鸿沟”（如文本接口）。动作执行的好坏无法通过梯度反向传播来修正高层模型对物理世界的理解，导致“大脑”的规划与“手脚”的执行脱节，难以协同优化，且推理延迟较高。

图1：不同VLA架构对比。分层模型（左）通过文本/像素规划产生不可微的间隙；传统端到端VLA（中）将特征直接映射为动作，意图与动作关联松散；DIAL（右）引入了可微分的潜在瓶颈，强制动作基于预测的意图生成。

第二类是端到端VLA模型。它们试图实现从感知到动作的端到端映射。为了增强物理世界的理解，一些前沿工作引入了“世界模型”作为辅助任务，例如预测未来帧。但问题在于，这些预测出的未来特征通常仅作为可选的上下文信息提供给策略网络，两者耦合非常松散。

这种松散的耦合无法严格保证机器人执行的动作是基于VLM推理出的“真实意图”。策略网络完全可能“走捷径”，绕过对物理动态的深入理解，仅仅学习到数据中表面的统计相关性，从而导致泛化能力差。

二、DIAL的核心机制：双系统理论与潜在意图桥梁

DIAL的设计灵感源于认知心理学中的“双系统理论”：系统2负责慢速、深思熟虑的分析与规划；系统1负责快速、自动化的反应与执行。DIAL将这一理论映射到机器人架构中，构建了一个清晰的双系统：

系统2（“大脑”- 潜在世界模型）：负责高层意图推理与潜在世界建模。其核心任务不是直接输出动作，而是在其视觉Transformer（ViT）固有的特征空间内，预测未来某个子目标状态的“潜在视觉前瞻”。这个预测出的连续特征向量，就是VLM对任务意图的显式编码，相当于一张在特征空间中绘制的、关于未来状态的“动态路线图”。
系统1（“小脑”- 潜在逆动力学控制器）：负责底层动作生成。它接收当前观测特征和系统2预测的“潜在意图”，然后像一个逆向动力学模型，精确计算出为了从当前状态抵达那个预测的未来状态，所需的一系列关节或电机控制指令。

图2：DIAL的双系统架构示意图。系统2（上）基于语言指令和当前观测，通过其大语言模型骨干和可学习查询词元，合成潜在前瞻。系统1（下）融合当前特征与预测意图，作为条件指导一个基于扩散Transformer的动作解码器生成动作序列。

真正的创新在于“瓶颈”设计。系统1生成动作的唯一依据，是系统2预测的“意图”与当前状态特征之间的差异。这形成了一个结构化的、可微分的强制约束：所有动作的生成都被严格锚定在VLM推理出的意图之上，从根本上杜绝了策略网络忽略意图、进行“捷径学习”的可能性。

同时，由于“意图”是连续的特征向量而非离散符号，整个信息通路是完全可微的。这意味着，动作执行效果的梯度可以顺畅地反向传播，指导系统2优化其意图预测，使其变得更“易于执行”。两者由此进入了协同进化、相互促进的良性循环。

三、稳健的训练范式：从独立预热到端到端协同

直接对复杂的双系统进行端到端联合训练极易导致不稳定。DIAL巧妙地设计了一个两阶段训练策略，实现了“先分后合”的稳健优化：

解耦预热阶段：系统2和系统1独立进行预训练。系统2使用大量（甚至无需动作标签的）视频或图像序列数据，学习根据当前观测和指令，预测真实的未来视觉特征，从而掌握物体和场景的物理动态。与此同时，系统1则在“完美”的未来特征（即真实未来观测的特征）指导下，学习如何将当前状态映射到目标动作，掌握精细的运动控制。两者在统一的VLM特征空间中对齐，为后续连接奠定坚实基础。
端到端协同阶段：预热完成后，正式连接两个系统。此时，系统1的生成条件变为系统2预测的（可能不完美的）意图。动作生成损失的梯度可以穿过瓶颈，反向传播给系统2。因此，系统2在继续优化预测准确性的同时，也开始接收来自下游动作执行的反馈。这使得它预测的意图逐渐演变为一个为动作执行而优化的、“动作感知”的高级表示。

这种策略确保了训练的稳定性，避免了在联合训练初期因系统2预测不准而误导系统1，也有效保护了VLM宝贵的预训练知识不被破坏。

四、卓越的性能表现：高数据效率与强大泛化能力

研究团队在RoboCasa GR1桌面任务模拟基准和真实的IRON-R01-1.11人形机器人平台上，对DIAL进行了全面评估。

图3：在RoboCasa GR1桌面任务模拟基准（全量数据）上的性能对比。DIAL取得了显著领先的成功率。

在模拟基准测试中，使用全部训练数据时，DIAL以70.2%的平均成功率，超越了包括FLARE、GR00T-N1.6在内的所有先进基线模型，确立了新的性能标杆。

更令人印象深刻的是其卓越的数据效率。在仅使用10%训练数据的少样本设定下，DIAL达到了58.3%的成功率，这甚至超过了部分基线模型使用100%数据训练后的性能，实现了近十倍的数据效率提升。

图4：在少样本设定下的性能对比。

得益于从大规模人类演示数据（如EgoDex数据集）中学习到的通用物理先验，DIAL在面对未见过的物体类别、新颖的物体-容器组合以及不同的视觉外观时，都表现出了强大的零样本泛化与迁移能力。

在真实机器人实验中，DIAL成功完成了抓放、倾倒等复杂操作任务，并能从容应对组合泛化（从多个熟悉物体中识别指令目标）、干扰物鲁棒性（忽略背景中新物体）、实例级迁移（操作从未见过的瓶子）等极具挑战性的场景。

图5：在真实人形机器人上进行的三类零样本泛化任务结果。

五、可解释的潜在意图：可视化验证

DIAL的“潜在意图”并非不可解释的黑箱。通过特征可视化分析可以发现，系统2预测的未来潜在特征，在任务关键区域（如待移动的物体、目标容器）与真实的未来特征高度相似，而与当前观测特征在这些区域则存在显著差异。这清晰地表明，系统2确实在特征空间中构建了一个有意义的、关于未来状态变化的“视觉路线图”，并成功地将这张图传递给了系统1去精确执行。

图6：潜在特征可视化。前两列显示预测的前瞻与真实未来在特征空间中对齐，最后一列的热图显示了预测意图与当前观测在空间上的差异，暖色区域即模型预期会发生变化的部位。

六、总结与未来方向

总体而言，DIAL框架通过引入“潜在意图瓶颈”，为端到端VLA模型提供了一种结构化的新范式。它成功地将大视觉语言模型从被动的特征编码器，提升为主动的决策规划者，同时通过可微分的桥梁，确保了低层策略的精确执行与协同优化。其展现出的卓越数据效率、训练稳定性和强大的零样本泛化能力，为构建更通用、更高效的具身智能体指明了极具前景的方向。

展望未来，研究团队计划探索利用更大规模、无动作标注的人类视频数据来预训练系统2，以进一步提升其世界建模的广度和深度。同时，对视觉编码器进行端到端微调，以及采用更高效的潜在表征压缩方法，也是持续提升模型性能与推理效率的关键路径。DIAL所倡导的“以潜在前瞻为通用接口”的理念，有望成为推动新一代通用机器人智能体发展的核心架构思想之一。

来源:https://www.51cto.com/article/842490.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：谷歌 Chrome 浏览器自动安装 AI 功能引发用户争议下一篇：Canva评论权限设置教程如何开启批注与版本管理