VLM赋能RDK X5机器狗精准理解遛弯与避障

首页

AI资讯

热心网友

转载

2026-05-28

跨形态机器人控制长期是机器人领域的行业难题。传统方案通常需要为不同形态的机器人各自独立设计控制逻辑——例如为四足机器人、轮式机器人、人形机器人分别开发一套专属策略，彼此之间难以复用。这种做法的弊端很明显：开发成本居高不下，一旦硬件平台更换，就需要从零开始构建控制软件，系统的泛化能力更是难以实现。

那么，有没有可能让用户仅通过一句自然语言指令，就能指挥不同形态的机器人协同完成同一个任务？本项目的初衷正是为了解决这一挑战。我们提出的核心思路是构建一个分层强化学习框架：上层采用视觉语言模型（VLM）解析用户任务，生成标准化的中间指令——比如“左转30度”；下层则依靠强化学习策略，根据机器人的形态参数，将这条指令转换为具体的底层动作——四足机器人可能会迈出相应的步态，而轮式机器人则执行一轮转向控制。整个训练过程在NVIDIA Isaac Sim仿真器中完成，随后部署到X5 RDK人形机器人及四足机器人上开展真机验证。

长期以来，跨形态机器人（如四足、轮式、人形）的控制方案多为各自独立开发，导致研发成本高昂且泛化能力匮乏。本课题提出一种基于语言-视觉分层强化学习的跨形态机器人通用控制架构，旨在通过自然语言指令这一统一接口，实现多形态机器人的任务适配与高效控制。具体而言，高层视觉语言模型（VLM）负责解析用户指令并生成标准化的中间指令（例如“左转30度”）；低层强化学习策略则依据机器人形态的参数化编码，将中间指令映射为适应具体形态的底层动作（如四足步态或轮式转向）。通过在NVIDIA Isaac Sim仿真器中快速训练跨形态通用策略，并结合X5 RDK人形机器人及四足机器人进行真机验证，本课题成功展示了同一语言指令在不同形态机器人上的高效执行能力。实验结果表明，该框架在动态避障、复杂地形适应及任务重规划等方面展现出显著优势，为跨形态机器人控制提供了一种低成本、高泛化的解决方案。

拟采用技术方案

整体架构采用分层强化学习设计。上层由VLM负责——将图像与自然语言输入转化为标准化的中间指令；下层则由强化学习策略将这些指令进一步转换为最终的底层动作序列。在仿真层面，我们使用mujoco配合多形态机器人模型完成验证，并最终尝试实现跨平台的真人机部署。

预期展示效果

在仿真环境中，我们对四足机器人和轮式机器人下达同一句指令——“绕过障碍物进入右侧房间”——观察它们各自规划出的路径与执行动作的差异。真机部分，则使用自搭建的轮式小车配合Petoi Bittle进行演示。后续将设计更丰富的人机交互场景。

X5 RDK用法

具体来说，X5平台上的RGB摄像头与IMU数据，会同时输入给高层VLM和低层策略模块。中间通过ROS2桥接，将低层策略输出的关节目标角度转换为电机控制指令。

仿真器验证内容

首先完成四足策略的训练，然后冻结高层VLM，仅对低层部分进行微调，使其适配人形机器人与轮式机器人。为了增强验证的可信度，仿真环境中会随机生成障碍物、地形起伏及光照变化，测试策略在复杂场景下的稳定性。与此同时，我们还将对比端到端的强化学习策略，评估两者在运行效率与算力消耗方面的差异。

真机演示内容

轮式机器人执行“沿走廊前进，在第二个门口右转”的任务；足式机器人则完成“避开地面杂物，将指定物品放置到指定位置”。两个演示均基于同一套控制框架。

项目预算

主要支出集中在三个方面：一台用于强化训练的工程机（或租用云算力），3D打印所需材料，以及舵机升级电机（此项待定）。

项目进度与计划

目前仿真环境已搭建完毕，机器人模型也已构建好。后续工作重点将放在数据采集、强化训练以及真机部署上。

方案验证

高层VLM

目标非常明确：将自然语言转换成中间动作指令，并且在简单任务——例如移动——上实现与机器人具体形态无关的通用控制。

使用VLM完成Navigation任务，实际上更接近VLA而非VLN，前者更关注场景内容的理解与交互，后者则侧重于路径规划。

我们采用开源VLM模型进行微调，但团队在这一过程中遇到了不少挑战。

首先尝试了openVLA——结果发现它直接输出端到端数据，对特定形态依赖性极强，不适用于跨形态场景。随后测试了LLaVA，本地部署7B模型，但其空间感知能力较差，且处理速度极慢——大约每个项目需要耗时一分钟。

接着我们尝试了Qwen-72B。这条路径相对简单直接——通过增加参数规模来提升性能，效果确实有所改善。但代价是无法实现本地部署，不过优势在于，即使在未进行微调的情况下，它在特定场景下也具备一定的空间感知能力。

随后，我们确实对Qwen-72B进行了数据采集与微调——前后手动拍摄了80多张场景照片，并配以对应的描述prompt，通过官方API运行了一轮训练。然而，微调后模型的部署成本过高——每小时160元，最终只得放弃。

最后，团队调整了策略：不再强制VLM进行精确的位置估算（特别是在未使用深度相机的情况下），而是仅让它进行粗略的距离判断，输出下一步的任务指令。这样，原生Qwen-72B即可胜任此工作。

低层PPO

目标是让该层将中间动作指令转化为机器人关节的角度与力矩。理想情况下，这一部分也应具备跨形态能力——但目前尚未验证，主要瓶颈在于变长输出问题。

强化学习部分主要针对四足机器人展开，我们基于Stable-Baselines3搭建了一个mujoco仿真环境用于训练。基本要求是使机器人在保持平稳的前提下完成直行与转弯动作。考虑到VLM的输出频率较低——大约每秒一个指令，后续还需加入速度跟踪机制以应对实时避障需求，这部分也通过强化学习来实现。

项目进度

week1：仿真场景搭建，完成了足式与轮式机器人的建模及控制测试。

week2：搭建高层VLM，完成多模态控制目标的输入。目标是将中间指令生成准确率提升至80%以上，同时完成X5 RDK上轮式机器人的sim2real优化与演示。

week3：部署低层四足PPO策略训练仿真，初步完成跨形态任务测试。

2.20仿真:

2.21实机:

week4：尝试3DGS场景下的高精度仿真。

来源:https://m.elecfans.com/article/6505318.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：英伟达GR00T N1开源：人形机器人功能模型技术革新解析下一篇：智能体Skill开发指南自动主题分类与文本合并技巧

相关攻略

AI资讯

VLM赋能RDK X5机器狗精准理解遛弯与避障

跨形态机器人控制长期是机器人领域的行业难题。传统方案通常需要为不同形态的机器人各自独立设计控制逻辑——例如为四足机器人、轮式机器人、人形机器人分别开发一套专属策略，彼此之间难以复用。这种做法的弊端很明显：开发成本居高不下，一旦硬件平台更换，就需要从零开始构建控制软件，系统的泛化能力更是难以实现。那

热心网友

05.28

科技数码

机器狗如何实现高精度常态化巡检运动与拍摄协同优化是关键

封面新闻记者付文超机器狗巡检的核心挑战究竟是什么？并非简单地“安装摄像头”或“保持云台稳定”。真正的技术难点在于：当四足机器人在真实复杂的工业场景中执行任务——包括行走、转弯、上下坡、跨越障碍、通过碎石路面与狭窄通道时，其整体系统能否持续输出稳定、清晰、可识别且可复现的高质量巡检数据。 5月25

热心网友

05.26

科技数码

中外青少年广州校园竞技 700人同场体验AI与机器狗

5月22日至24日，第七届“中外人文交流小使者”人工智能及四足机器人国际交流活动在广州举行，吸引多国700余名师生参与。活动涵盖机器狗方阵、竞速障碍、接力跑及AI应用展示等环节，并开设AI大师课。广州正积极推动“人工智能+教育”战略，构建全市AI教育网络，促进科技赋能教育与国际交流。

热心网友

05.24

科技数码

宇树机器狗职场实录揭秘其日常工作与实用功能

上海张江街头出现宇树机器狗，正前往指定区域执行环境数据采集任务，为构建三维导航地图做准备。它将于本月底正式成为全天候AI巡检员，途中与路人宠物互动，展现了灵动一面。机器狗能自主避障、识别路面异常并上报，其能力经深度二次开发适配巡检需求，未来将依托充电桩实现持续运。

热心网友

05.24

科技数码

云深处与宇树科技轮足机器人新品发布行业竞争升级

云深处发布小型轮足机器人山猫S10，自重轻、负载强，适应巡检、救援等多场景。其防护等级高，价格定位几万元级。宇树科技也预告将推出轮足版本。云深处营收增长迅速，已实现盈利，主要收入来自行业应用。行业商业模式正从硬件销售向“硬件+软件+服务”一体化生态演进。

热心网友

05.21