首页 游戏 软件 资讯 排行榜 专题
首页
AI
港大与小鹏机器人联合研发DIAL决策范式 机器人效率提升十倍

港大与小鹏机器人联合研发DIAL决策范式 机器人效率提升十倍

热心网友
32
转载
2026-05-16

让机器人“把桌上的苹果放进篮子里”,看似简单的指令背后,却蕴含着一系列复杂的感知、推理与执行挑战:机器人需要精准“识别”物体,深刻“理解”任务意图,并规划出一连串连贯的抓取、移动和放置动作。近年来,视觉-语言模型(VLM)的迅猛发展为机器人领域注入了新活力,端到端的视觉-语言-动作(VLA)模型应运而生,旨在让机器人根据自然语言指令和视觉输入直接生成动作序列,这被视为迈向通用机器人的一条极具潜力的技术路径。

然而,这条道路充满挑战。现有主流方法往往将强大的VLM降级为单纯的“特征提取器”,试图将提取出的多模态特征直接映射到低层级的电机控制指令上。这种做法,如同让一位战略指挥官去直接调控每个士兵的肌肉动作,不仅未能充分发挥VLM高层级语义理解和推理的潜力,还常常导致模型训练不稳定,甚至损害其预训练阶段获得的丰富知识。那么,是否存在一种创新架构,既能像“大脑”一样进行高层规划,又能像“小脑”一样精准控制,并且两者能够高效协同、共同进化?

来自香港大学、小鹏机器人及北卡罗来纳大学教堂山分校的研究团队,提出了一个名为DIAL的突破性框架,为上述难题提供了一个精巧而有效的解决方案。其核心创新在于,引入了一个可微分的“潜在意图瓶颈”,在高层认知模块与底层控制模块之间,架起了一座严格约束且信息通畅的桥梁。

图片

论文标题:DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA

论文链接:https://arxiv.org/pdf/2603.29844v1

项目主页:https://xpeng-robotics.github.io/dial

一、现有方法的困境:意图与动作的耦合难题

要深入理解DIAL的巧妙设计,首先需要审视当前VLA模型面临的两大核心困境。

第一类是分层规划模型。这类方法通常让大型模型(如VLM或大语言模型)生成高级规划,例如文本形式的子任务列表或可执行代码,再由一个独立的底层控制器去解析并执行。这种思路清晰、可解释性强,但其瓶颈在于,高层规划器与底层执行器之间往往存在不可微分的“语义鸿沟”(如文本接口)。动作执行的好坏无法通过梯度反向传播来修正高层模型对物理世界的理解,导致“大脑”的规划与“手脚”的执行脱节,难以协同优化,且推理延迟较高。

图片

图1:不同VLA架构对比。分层模型(左)通过文本/像素规划产生不可微的间隙;传统端到端VLA(中)将特征直接映射为动作,意图与动作关联松散;DIAL(右)引入了可微分的潜在瓶颈,强制动作基于预测的意图生成。

第二类是端到端VLA模型。它们试图实现从感知到动作的端到端映射。为了增强物理世界的理解,一些前沿工作引入了“世界模型”作为辅助任务,例如预测未来帧。但问题在于,这些预测出的未来特征通常仅作为可选的上下文信息提供给策略网络,两者耦合非常松散。

这种松散的耦合无法严格保证机器人执行的动作是基于VLM推理出的“真实意图”。策略网络完全可能“走捷径”,绕过对物理动态的深入理解,仅仅学习到数据中表面的统计相关性,从而导致泛化能力差。

二、DIAL的核心机制:双系统理论与潜在意图桥梁

DIAL的设计灵感源于认知心理学中的“双系统理论”:系统2负责慢速、深思熟虑的分析与规划;系统1负责快速、自动化的反应与执行。DIAL将这一理论映射到机器人架构中,构建了一个清晰的双系统:

  • 系统2(“大脑”- 潜在世界模型):负责高层意图推理与潜在世界建模。其核心任务不是直接输出动作,而是在其视觉Transformer(ViT)固有的特征空间内,预测未来某个子目标状态的“潜在视觉前瞻”。这个预测出的连续特征向量,就是VLM对任务意图的显式编码,相当于一张在特征空间中绘制的、关于未来状态的“动态路线图”。
  • 系统1(“小脑”- 潜在逆动力学控制器):负责底层动作生成。它接收当前观测特征和系统2预测的“潜在意图”,然后像一个逆向动力学模型,精确计算出为了从当前状态抵达那个预测的未来状态,所需的一系列关节或电机控制指令。

图片

图2:DIAL的双系统架构示意图。系统2(上)基于语言指令和当前观测,通过其大语言模型骨干和可学习查询词元,合成潜在前瞻。系统1(下)融合当前特征与预测意图,作为条件指导一个基于扩散Transformer的动作解码器生成动作序列。

真正的创新在于“瓶颈”设计。系统1生成动作的唯一依据,是系统2预测的“意图”与当前状态特征之间的差异。这形成了一个结构化的、可微分的强制约束:所有动作的生成都被严格锚定在VLM推理出的意图之上,从根本上杜绝了策略网络忽略意图、进行“捷径学习”的可能性。

同时,由于“意图”是连续的特征向量而非离散符号,整个信息通路是完全可微的。这意味着,动作执行效果的梯度可以顺畅地反向传播,指导系统2优化其意图预测,使其变得更“易于执行”。两者由此进入了协同进化、相互促进的良性循环。

三、稳健的训练范式:从独立预热到端到端协同

直接对复杂的双系统进行端到端联合训练极易导致不稳定。DIAL巧妙地设计了一个两阶段训练策略,实现了“先分后合”的稳健优化:

  1. 解耦预热阶段:系统2和系统1独立进行预训练。系统2使用大量(甚至无需动作标签的)视频或图像序列数据,学习根据当前观测和指令,预测真实的未来视觉特征,从而掌握物体和场景的物理动态。与此同时,系统1则在“完美”的未来特征(即真实未来观测的特征)指导下,学习如何将当前状态映射到目标动作,掌握精细的运动控制。两者在统一的VLM特征空间中对齐,为后续连接奠定坚实基础。
  2. 端到端协同阶段:预热完成后,正式连接两个系统。此时,系统1的生成条件变为系统2预测的(可能不完美的)意图。动作生成损失的梯度可以穿过瓶颈,反向传播给系统2。因此,系统2在继续优化预测准确性的同时,也开始接收来自下游动作执行的反馈。这使得它预测的意图逐渐演变为一个为动作执行而优化的、“动作感知”的高级表示。

这种策略确保了训练的稳定性,避免了在联合训练初期因系统2预测不准而误导系统1,也有效保护了VLM宝贵的预训练知识不被破坏。

四、卓越的性能表现:高数据效率与强大泛化能力

研究团队在RoboCasa GR1桌面任务模拟基准和真实的IRON-R01-1.11人形机器人平台上,对DIAL进行了全面评估。

图片

图3:在RoboCasa GR1桌面任务模拟基准(全量数据)上的性能对比。DIAL取得了显著领先的成功率。

在模拟基准测试中,使用全部训练数据时,DIAL以70.2%的平均成功率,超越了包括FLARE、GR00T-N1.6在内的所有先进基线模型,确立了新的性能标杆。

更令人印象深刻的是其卓越的数据效率。在仅使用10%训练数据的少样本设定下,DIAL达到了58.3%的成功率,这甚至超过了部分基线模型使用100%数据训练后的性能,实现了近十倍的数据效率提升。

图4:在少样本设定下的性能对比。

得益于从大规模人类演示数据(如EgoDex数据集)中学习到的通用物理先验,DIAL在面对未见过的物体类别、新颖的物体-容器组合以及不同的视觉外观时,都表现出了强大的零样本泛化与迁移能力。

在真实机器人实验中,DIAL成功完成了抓放、倾倒等复杂操作任务,并能从容应对组合泛化(从多个熟悉物体中识别指令目标)、干扰物鲁棒性(忽略背景中新物体)、实例级迁移(操作从未见过的瓶子)等极具挑战性的场景。

图5:在真实人形机器人上进行的三类零样本泛化任务结果。

五、可解释的潜在意图:可视化验证

DIAL的“潜在意图”并非不可解释的黑箱。通过特征可视化分析可以发现,系统2预测的未来潜在特征,在任务关键区域(如待移动的物体、目标容器)与真实的未来特征高度相似,而与当前观测特征在这些区域则存在显著差异。这清晰地表明,系统2确实在特征空间中构建了一个有意义的、关于未来状态变化的“视觉路线图”,并成功地将这张图传递给了系统1去精确执行。

图片

图6:潜在特征可视化。前两列显示预测的前瞻与真实未来在特征空间中对齐,最后一列的热图显示了预测意图与当前观测在空间上的差异,暖色区域即模型预期会发生变化的部位。

六、总结与未来方向

总体而言,DIAL框架通过引入“潜在意图瓶颈”,为端到端VLA模型提供了一种结构化的新范式。它成功地将大视觉语言模型从被动的特征编码器,提升为主动的决策规划者,同时通过可微分的桥梁,确保了低层策略的精确执行与协同优化。其展现出的卓越数据效率、训练稳定性和强大的零样本泛化能力,为构建更通用、更高效的具身智能体指明了极具前景的方向。

展望未来,研究团队计划探索利用更大规模、无动作标注的人类视频数据来预训练系统2,以进一步提升其世界建模的广度和深度。同时,对视觉编码器进行端到端微调,以及采用更高效的潜在表征压缩方法,也是持续提升模型性能与推理效率的关键路径。DIAL所倡导的“以潜在前瞻为通用接口”的理念,有望成为推动新一代通用机器人智能体发展的核心架构思想之一。

来源:https://www.51cto.com/article/842490.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

HR招聘RPA应用:简历筛选效率提升300%的实现原理
业界动态
HR招聘RPA应用:简历筛选效率提升300%的实现原理

在招聘高峰期,HR部门面临的最大挑战之一便是海量简历的筛选工作。传统依赖人工手动处理的方式不仅效率低下、耗时费力,还容易因主观判断和视觉疲劳导致优质人才被遗漏。本文将深入探讨如何利用RPA(机器人流程自动化)与人工智能技术,实现简历筛选效率提升300%以上的突破,并详细解析其背后的技术原理与实施路径

热心网友
05.16
统信UOS鼠标宏设置教程 提升办公效率实用指南
系统平台
统信UOS鼠标宏设置教程 提升办公效率实用指南

想在统信UOS系统中自动化重复的鼠标操作,提升办公效率吗?无论是批量处理文件、快速启动应用,还是执行复杂的点击序列,虽然UOS未内置鼠标宏功能,但通过第三方工具与脚本配置,完全可以实现自动化。本文将为您详细介绍四种实用方法,涵盖图形化录制、命令行脚本、系统集成与应用内宏,帮助您根据技术背景与具体场景

热心网友
05.14
东北大学AI算法优化求解效率提升五倍
AI
东北大学AI算法优化求解效率提升五倍

这项由东北大学软件学院、中科院大学国际理论物理中心(亚太地区)以及清华大学联合完成的研究,已于2026年2月在arXiv预印本平台发布,编号为arXiv:2602 08253v1。对技术细节感兴趣的读者,可以通过该编号查阅完整论文。 无论是网购包裹的配送路线,还是工厂车间的生产调度,我们每天都会遇到

热心网友
05.14
Figma AI与手动整理效率对比实测数据分析
AI
Figma AI与手动整理效率对比实测数据分析

在处理Figma多语言界面或批量文本更新时,如果感觉手动操作耗时费力、容易遗漏且返工率高,这背后往往有明确的技术原因。人工操作难以覆盖全部文本图层与动态组件,是效率瓶颈的关键所在。基于真实生产环境的实测数据,我们可以清晰地看到AI方案与手动方案在多维度的表现差异。 一、文本提取与覆盖完整性对比 手动

热心网友
05.13
腾讯BAC研究院视觉思维压缩术详解 AI推理效率提升3到4倍
AI
腾讯BAC研究院视觉思维压缩术详解 AI推理效率提升3到4倍

这项由腾讯BAC研究院联合清华大学深圳国际研究生院、北京大学电子与计算机工程学院、格拉斯哥大学数学统计学院共同完成的创新研究,于2025年1月发表在arXiv预印本平台(论文编号:arXiv:2601 14750v1),为提升大模型推理效率开辟了一条全新的技术路径。 当人类思考复杂数学问题时,大脑会

热心网友
05.12

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

鬼泣动画主创回应识质存在动画化计划最新进展
游戏资讯
鬼泣动画主创回应识质存在动画化计划最新进展

知名制作人阿迪·尚卡尔透露,在卡普空发布新作后,他收到大量粉丝请求,希望将科幻游戏《识质存在》动画化。他认为该游戏因“不寻常且原创性十足”而备受关注。但目前他并无改编计划,而是选择专注于全新的原创项目,以探索更多叙事可能性。

热心网友
05.16
班迪与油印机新手攻略 操作技巧与通关玩法详解
游戏资讯
班迪与油印机新手攻略 操作技巧与通关玩法详解

《班迪与油印机》是一款融合平台跳跃与解谜的冒险游戏。攻略从基础操作讲起,详细介绍了前八关的核心玩法与技巧,包括利用特殊动作通过地形、应对各类机关与Boss战策略。游戏过程中可收集资源以升级能力,探索隐藏区域。其关卡设计富有创意,难度较高,但攻克后能获得显著成就感。

热心网友
05.16
异环赛车任务攻略:高效跑赢白杨的技巧解析
游戏攻略
异环赛车任务攻略:高效跑赢白杨的技巧解析

在《异环》游戏中,获取那台备受瞩目的AE86幽灵车外观,关键在于完成白杨的支线赛车挑战。许多玩家在此环节遇到困难,感觉对手速度难以超越。实际上,掌握正确技巧后,赢得比赛并不复杂。 异环白杨赛车任务通关技巧详解 获胜的核心策略可以总结为:把握弯道优势,主动实施碰撞。 白杨的车辆起步与直线加速性能确实出

热心网友
05.16
星星益智果酱怎么玩 游戏玩法与特色全解析
游戏攻略
星星益智果酱怎么玩 游戏玩法与特色全解析

《星星益智果酱》是一款即将上线的休闲手游,玩法简单直观。游戏通过介绍与实机画面展示核心内容,帮助玩家快速了解其特色与乐趣。

热心网友
05.16
抗性忽视机制详解与实战通关数据全解析
游戏攻略
抗性忽视机制详解与实战通关数据全解析

心魔15层需冰抗180、火抗220以应对高额元素伤害,并把握BOSS施法前摇。16层需优先集火“魅惑魔灵”以防混乱,并稳妥处理高伤“穿刺者”。17层需兼顾元素区域走位与快速击破回血核心,考验团队输出与生存综合能力。这三层逐级挑战生存、节奏与整体实力。

热心网友
05.16