CVPR 2026 DriveVLN：一句指令融合视觉语言导航实现裸车自主导航

时间：2026-06-05 16:29

高精地图造价高昂且更新繁琐，一直是自动驾驶规模化落地的核心瓶颈。澳门大学联合千里科技提出的DriveVLN任务，另辟蹊径绕开了地图——仅仅依靠视觉和自然语言指令，就能让车辆在完全无图的环境中自主导航。团队在CARLA仿真器中构建了200个实景场景，并设计了一种“规划+大模型选择”的双分支架构，配合监

高精地图造价高昂且更新繁琐，一直是自动驾驶规模化落地的核心瓶颈。澳门大学联合千里科技提出的DriveVLN任务，另辟蹊径绕开了地图——仅仅依靠视觉和自然语言指令，就能让车辆在完全无图的环境中自主导航。团队在CARLA仿真器中构建了200个实景场景，并设计了一种“规划+大模型选择”的双分支架构，配合监督与强化混合训练。结果显示，在真实车库泊车实测中，其表现直接超越了GPT-5、Qwen等主流多模态大模型。这背后的技术原理是怎样的？下面展开详细解读。

研究背景：两大行业痛点催生无地图导航新方案

当前自动驾驶商业化落地进入瓶颈期，核心桎梏集中在高精地图依赖与传统VLN无法适配行车场景这两大难题。

传统自动驾驶：离开高精地图寸步难行。市面上主流方案全部依赖预先测绘制作的高精地图，依靠地图中存储的车道、车位、地标信息来规划行车路线。然而，地下车库、临时园区、老旧小路、乡村路段几乎不会投入成本进行高精地图测绘，车辆驶入后直接失去导航依据，无法完成点对点自主行驶，自动泊车场景落地尤为困难。同时，高精地图的测绘与运维成本极高，大幅提高了车企的量产成本。

传统室内VLN：指令模式不符合人类开车习惯。经典视觉语言导航（VLN）来源于室内扫地机器人、机械臂等场景，需要使用者提供分步精细指令，例如“直行穿过大厅→右转驶入第二个房间”。但实际驾驶中，人类只会下达精简的目的地指令，如“开到园区出口”、“去充电桩停车”，没人能提前预判全程行驶路径并拆分每一步动作。传统分步式VLN完全无法落地车载场景。

基于上述现实痛点，研究团队开创性地提出了DriveVLN：车辆不加载任何预存地图，仅通过车载摄像头视觉画面和用户简短的目的地描述，自主识别路标、地面标线、建筑物等环境线索，完成全流程导航。

四大核心创新贡献

创新任务定义：首次将视觉语言导航（VLN）从室内机器人迁移至自动驾驶领域，提出全新的Mapless-DriveVLN任务，定义了“目的地短句+车载视觉=自主导航”的新范式，填补了无地图环境下语言引导自动驾驶的研究空白。
搭建行业首个专用基准：基于真实道路扫描数据，在CARLA仿真平台复刻了200个高度还原现实的数字孪生场景，场景重点覆盖无图地下停车场、露天园区等难点环境，并配套完整数据集与统一评价指标，为后续该方向的研究提供了标准化测试底座。
独创双分支基线模型：拆分为“轨迹规划模块”和“多模态导航选择器”，规划器批量生成多条安全可行的路线，微调后的VL大模型结合图文从候选路线中择优决策，打通了感知、语言到车辆控制的全链路。
两段式混合训练方案：先使用真实路采数据进行监督微调，再在海量仿真场景中开展强化学习优化策略；经过仿真环境和真实车场双重验证，模型在泊车导航性能上优于市面多款头部商用及开源多模态大模型。

DriveVLN专属导航基准

团队自研的Topo2Sim自动化数据生成管线，从数学任务定义、场景构建、数据增强到指标设计，全流程搭建了标准化评测基准，兼顾了自动驾驶安全属性与VLN导航属性。

1. 任务数学建模：POMDP部分可观测马尔可夫过程

将车辆无地图语言导航转化为标准的POMDP数学问题：

车辆状态：代表车辆实时位姿，为车载传感器采集信息，为抵达标记（1表示到达目的地，导航终止）；
环境观测：为车载相机实时RGB画面；
候选轨迹集合：即轨迹规划网络，输出K条不依赖目的地、仅满足可行驶条件的备选路线。

2. Topo2Sim三阶段数据集生产流水线

实景场景建模：将实车采集的WGS84地理坐标统一转换为仿真器坐标系，基于Frenet公式精准生成车道左右边界：=车道中心线函数，=车道实时宽度，=车道横向法向量，再通过路口端点匹配，搭建完整路网拓扑图。
场景与文本双增强：借助GPT-4对同一个目的地生成多版同义指令（如“去充电”和“把车子停到充电桩”）；随机在场景内添加障碍物、社会车辆、交通标识，单个拓扑生成多套差异化场景，扩充数据多样性。
自动化标注采集：仿真车辆搭载8路RGB相机和激光雷达，以2Hz频率采集全场景数据，依托路网最优路径自动标注真值导航轨迹，最终数据集累计超过35万帧有效画面。

3. 复合式评测指标体系

基准独创了自动驾驶安全指标与VLN导航精度指标的双维度评价规则，既考核车辆是否会剐蹭、路线是否平顺，又衡量能否精准抵达目标点位。

DriveVLN模型架构

整套模型由轨迹规划模块与多模态导航选择器两大组件构成，搭配“监督微调+强化学习调优”的分阶段训练，分工明确且落地友好。

1. 两大核心模块分工

规划模块：基于DiffusionDrive扩散模型批量生成可行轨迹

输入车载RGB图像与激光雷达点云数据，采用锚定高斯分布采样加去噪逻辑，一次性生成多条符合交通规则、物理可行的候选轨迹，筛选Top-K条作为备选路径池；每条轨迹预设未来4秒的行驶路线，包含8个路径关键点。

重点：该模块生成轨迹不参考目的地信息，只保证路线能正常行驶，选路决策全部交给下游大模型。

导航选择器：基于Qwen2.5-VL-3B微调的多模态大模型

将每条候选轨迹用不同颜色标注并叠加在前视摄像头原图上，把“带彩色候选路径的图片+目的地文字指令”输入微调后的VLM；模型固定输出格式：是否抵达目的地；最优路径对应颜色，同时缓存历史图像与过往决策，依靠时序记忆辅助十字路口、岔路口的路线选择。

2. 两阶段训练策略

阶段一：监督微调（SFT）

规划器：利用仿真真值轨迹聚类得到轨迹锚点，学习通用的道路可行路线生成规律；
选择器：使用单帧图文数据进行指令微调，学习看图识别终点、筛选最优路径的问答范式。

阶段二：强化学习优化（GRPO算法）

设计局部安全奖励与全局路径奖励的复合回报函数，采用GRPO分组策略优化大模型选择逻辑：

局部奖励（单步行驶安全加轨迹贴合度）：选中轨迹与真实最优轨迹的重合匹配度，数值越高路线越平顺；=碰撞标识，发生碰撞则、安全奖励直接归零，倒逼模型规避剐蹭。
全局奖励（全路程导航精准度加到达奖励）：=路口分支选择正确率、=行驶道路与最优路线重合占比、=成功抵达目的地额外奖励。
总收益融合：，搭配KL散度约束防止模型训练发散，最终依靠GRPO优势函数更新大模型参数。

全方位实测实验

实验分为仿真基准测评、真实车场落地测评、消融对照实验三大部分，硬件环境采用8张NVIDIA A800显卡完成全量训练。

1. 核心综合指标

采用自研综合驾驶分数（值域0~1，分数越高性能越强）：

：行车惩罚系数，碰撞惩罚、轨迹偏离惩罚；
：路线完成度，=目的地到达成功率、=导航误差。

2. 横向对标主流大模型（仿真数据集测试）

亮点：DriveVLN综合得分断层领先，碰撞率与轨迹误差全模型最优；受无地图任务本身难度限制，全方案的到达成功率不足50%，这正是后续优化方向。

3. 真实停车场实地测试（车位/充电桩/出入口三大场景）

在真实园区实测目的地识别与路径选择，车位到达识别准确率高达98.61%——反观Qwen2.5-VL-72B车位识别准确率仅为1.34%；整体目的地检出准确率91.40%，大幅超越GPT-5（81.89%）、Seed-1.6（56.15%），完美解决了商用自动泊车无图落地的难题。

4. 消融实验：验证双阶段训练必要性

仅SFT监督训练：综合得分仅0.49，到达成功率0.21，单帧选路尚可，长距离跨路口极易迷路；
SFT+RL双阶段训练：分数暴涨至0.67，证明强化学习能帮助模型利用历史全局信息优化远距离导航；
替换专家真值轨迹做规划输入：性能小幅提升，证明轨迹生成质量直接决定导航上限。

研究总结与行业展望

落地价值总结

降本赋能自动驾驶量产：摆脱高精地图依赖，省去海量地图测绘、定期更新的成本，尤其适配地下车库、老旧园区等非标场景的自动泊车落地，是低成本普及L2+/L4自动驾驶的关键路线。
开辟全新研究赛道：DriveVLN正式确立了无地图语言导航的研究范式，配套200场景CARLA基准成为行业统一测试集，为后续学术界、车企研发提供标准化参考。
方案工程落地友好：双模块架构加两段式训练落地门槛低，依托成熟的扩散规划与开源多模态大模型即可快速复现，中小自动驾驶厂商可低成本落地迭代。

未来优化方向

扩充海量国内真实道路采集数据，优化雨雪、夜间暗光等极端环境的鲁棒性；
接入更大参数规模的多模态基座，攻克跨街区长距离无地图语言导航难题；
拓展高速、城区主干道场景，从园区泊车走向全场景全域无图自动驾驶。

来源：https://cloud.tencent.com.cn/developer/article/2682351

自动驾驶

上一篇用Elasticsearch和GitHub Copilot SDK构建RAG智能体 下一篇微软与OpenAI终止合作后开启疯狂扩张

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。