高精地图造价高昂且更新繁琐,一直是自动驾驶规模化落地的核心瓶颈。澳门大学联合千里科技提出的DriveVLN任务,另辟蹊径绕开了地图——仅仅依靠视觉和自然语言指令,就能让车辆在完全无图的环境中自主导航。团队在CARLA仿真器中构建了200个实景场景,并设计了一种“规划+大模型选择”的双分支架构,配合监督与强化混合训练。结果显示,在真实车库泊车实测中,其表现直接超越了GPT-5、Qwen等主流多模态大模型。这背后的技术原理是怎样的?下面展开详细解读。
研究背景:两大行业痛点催生无地图导航新方案

当前自动驾驶商业化落地进入瓶颈期,核心桎梏集中在高精地图依赖与传统VLN无法适配行车场景这两大难题。
传统自动驾驶:离开高精地图寸步难行。市面上主流方案全部依赖预先测绘制作的高精地图,依靠地图中存储的车道、车位、地标信息来规划行车路线。然而,地下车库、临时园区、老旧小路、乡村路段几乎不会投入成本进行高精地图测绘,车辆驶入后直接失去导航依据,无法完成点对点自主行驶,自动泊车场景落地尤为困难。同时,高精地图的测绘与运维成本极高,大幅提高了车企的量产成本。
传统室内VLN:指令模式不符合人类开车习惯。经典视觉语言导航(VLN)来源于室内扫地机器人、机械臂等场景,需要使用者提供分步精细指令,例如“直行穿过大厅→右转驶入第二个房间”。但实际驾驶中,人类只会下达精简的目的地指令,如“开到园区出口”、“去充电桩停车”,没人能提前预判全程行驶路径并拆分每一步动作。传统分步式VLN完全无法落地车载场景。
基于上述现实痛点,研究团队开创性地提出了DriveVLN:车辆不加载任何预存地图,仅通过车载摄像头视觉画面和用户简短的目的地描述,自主识别路标、地面标线、建筑物等环境线索,完成全流程导航。
四大核心创新贡献
- 创新任务定义:首次将视觉语言导航(VLN)从室内机器人迁移至自动驾驶领域,提出全新的Mapless-DriveVLN任务,定义了“目的地短句+车载视觉=自主导航”的新范式,填补了无地图环境下语言引导自动驾驶的研究空白。
- 搭建行业首个专用基准:基于真实道路扫描数据,在CARLA仿真平台复刻了200个高度还原现实的数字孪生场景,场景重点覆盖无图地下停车场、露天园区等难点环境,并配套完整数据集与统一评价指标,为后续该方向的研究提供了标准化测试底座。
- 独创双分支基线模型:拆分为“轨迹规划模块”和“多模态导航选择器”,规划器批量生成多条安全可行的路线,微调后的VL大模型结合图文从候选路线中择优决策,打通了感知、语言到车辆控制的全链路。
- 两段式混合训练方案:先使用真实路采数据进行监督微调,再在海量仿真场景中开展强化学习优化策略;经过仿真环境和真实车场双重验证,模型在泊车导航性能上优于市面多款头部商用及开源多模态大模型。
DriveVLN专属导航基准
团队自研的Topo2Sim自动化数据生成管线,从数学任务定义、场景构建、数据增强到指标设计,全流程搭建了标准化评测基准,兼顾了自动驾驶安全属性与VLN导航属性。
1. 任务数学建模:POMDP部分可观测马尔可夫过程
将车辆无地图语言导航转化为标准的POMDP数学问题:
- 车辆状态:代表车辆实时位姿,为车载传感器采集信息,为抵达标记(1表示到达目的地,导航终止);
- 环境观测:为车载相机实时RGB画面;
- 候选轨迹集合:即轨迹规划网络,输出K条不依赖目的地、仅满足可行驶条件的备选路线。
2. Topo2Sim三阶段数据集生产流水线
- 实景场景建模:将实车采集的WGS84地理坐标统一转换为仿真器坐标系,基于Frenet公式精准生成车道左右边界:=车道中心线函数,=车道实时宽度,=车道横向法向量,再通过路口端点匹配,搭建完整路网拓扑图。
- 场景与文本双增强:借助GPT-4对同一个目的地生成多版同义指令(如“去充电”和“把车子停到充电桩”);随机在场景内添加障碍物、社会车辆、交通标识,单个拓扑生成多套差异化场景,扩充数据多样性。
- 自动化标注采集:仿真车辆搭载8路RGB相机和激光雷达,以2Hz频率采集全场景数据,依托路网最优路径自动标注真值导航轨迹,最终数据集累计超过35万帧有效画面。
3. 复合式评测指标体系
基准独创了自动驾驶安全指标与VLN导航精度指标的双维度评价规则,既考核车辆是否会剐蹭、路线是否平顺,又衡量能否精准抵达目标点位。
DriveVLN模型架构

整套模型由轨迹规划模块与多模态导航选择器两大组件构成,搭配“监督微调+强化学习调优”的分阶段训练,分工明确且落地友好。
1. 两大核心模块分工
规划模块:基于DiffusionDrive扩散模型批量生成可行轨迹
输入车载RGB图像与激光雷达点云数据,采用锚定高斯分布采样加去噪逻辑,一次性生成多条符合交通规则、物理可行的候选轨迹,筛选Top-K条作为备选路径池;每条轨迹预设未来4秒的行驶路线,包含8个路径关键点。
重点:该模块生成轨迹不参考目的地信息,只保证路线能正常行驶,选路决策全部交给下游大模型。
导航选择器:基于Qwen2.5-VL-3B微调的多模态大模型
将每条候选轨迹用不同颜色标注并叠加在前视摄像头原图上,把“带彩色候选路径的图片+目的地文字指令”输入微调后的VLM;模型固定输出格式:是否抵达目的地;最优路径对应颜色,同时缓存历史图像与过往决策,依靠时序记忆辅助十字路口、岔路口的路线选择。
2. 两阶段训练策略
阶段一:监督微调(SFT)
- 规划器:利用仿真真值轨迹聚类得到轨迹锚点,学习通用的道路可行路线生成规律;
- 选择器:使用单帧图文数据进行指令微调,学习看图识别终点、筛选最优路径的问答范式。
阶段二:强化学习优化(GRPO算法)
设计局部安全奖励与全局路径奖励的复合回报函数,采用GRPO分组策略优化大模型选择逻辑:
- 局部奖励(单步行驶安全加轨迹贴合度):选中轨迹与真实最优轨迹的重合匹配度,数值越高路线越平顺;=碰撞标识,发生碰撞则、安全奖励直接归零,倒逼模型规避剐蹭。
- 全局奖励(全路程导航精准度加到达奖励):=路口分支选择正确率、=行驶道路与最优路线重合占比、=成功抵达目的地额外奖励。
- 总收益融合:,搭配KL散度约束防止模型训练发散,最终依靠GRPO优势函数更新大模型参数。
全方位实测实验
实验分为仿真基准测评、真实车场落地测评、消融对照实验三大部分,硬件环境采用8张NVIDIA A800显卡完成全量训练。
1. 核心综合指标
采用自研综合驾驶分数(值域0~1,分数越高性能越强):
- :行车惩罚系数,碰撞惩罚、轨迹偏离惩罚;
- :路线完成度,=目的地到达成功率、=导航误差。
2. 横向对标主流大模型(仿真数据集测试)

亮点:DriveVLN综合得分断层领先,碰撞率与轨迹误差全模型最优;受无地图任务本身难度限制,全方案的到达成功率不足50%,这正是后续优化方向。
3. 真实停车场实地测试(车位/充电桩/出入口三大场景)

在真实园区实测目的地识别与路径选择,车位到达识别准确率高达98.61%——反观Qwen2.5-VL-72B车位识别准确率仅为1.34%;整体目的地检出准确率91.40%,大幅超越GPT-5(81.89%)、Seed-1.6(56.15%),完美解决了商用自动泊车无图落地的难题。
4. 消融实验:验证双阶段训练必要性

- 仅SFT监督训练:综合得分仅0.49,到达成功率0.21,单帧选路尚可,长距离跨路口极易迷路;
- SFT+RL双阶段训练:分数暴涨至0.67,证明强化学习能帮助模型利用历史全局信息优化远距离导航;
- 替换专家真值轨迹做规划输入:性能小幅提升,证明轨迹生成质量直接决定导航上限。
研究总结与行业展望
落地价值总结
- 降本赋能自动驾驶量产:摆脱高精地图依赖,省去海量地图测绘、定期更新的成本,尤其适配地下车库、老旧园区等非标场景的自动泊车落地,是低成本普及L2+/L4自动驾驶的关键路线。
- 开辟全新研究赛道:DriveVLN正式确立了无地图语言导航的研究范式,配套200场景CARLA基准成为行业统一测试集,为后续学术界、车企研发提供标准化参考。
- 方案工程落地友好:双模块架构加两段式训练落地门槛低,依托成熟的扩散规划与开源多模态大模型即可快速复现,中小自动驾驶厂商可低成本落地迭代。
未来优化方向
- 扩充海量国内真实道路采集数据,优化雨雪、夜间暗光等极端环境的鲁棒性;
- 接入更大参数规模的多模态基座,攻克跨街区长距离无地图语言导航难题;
- 拓展高速、城区主干道场景,从园区泊车走向全场景全域无图自动驾驶。
