3月6日,高德地图发布了一项突破性技术——全球首个基于大模型驱动的视觉认知步导系统。这项AI领航技术深度融合了千问大模型、亿级POI数据库以及千万级高精度街景图像,让导航系统首次具备了视觉认知和人类语言理解能力。
传统步行导航常面临起点方向模糊、距离概念缺失、终点难以辨认等痛点,而新系统依托超亿级POI数据库、高精度步行路网拓扑及千万级高精度街景图像三大核心能力,构建了对空间关系的深度理解。
借助千问大模型的多模态能力,系统可精准识别交通设施、商铺、地标建筑等实体,并评估其视觉显著性,生成符合人类习惯的自然语言指引。
在导航过程中,系统会在起点、转弯处、临近终点等关键节点,优先选择醒目易识别的参照物进行语音播报,同时在地图上高亮对应位置。
指引方案突出颜色、形态与相对位置特征,例如"经过蓝色便利店右转,银色玻璃门就是入口""保持施耐德电气大门在左手边"等,实现所见即所导。
实测数据显示,用户听到视觉地标提示后,平均比传统导航快2秒确认正确路径,有效减少查看手机频次,显著降低了老年人、亲子家庭、游客等群体的步行出行门槛。升级后的步行导航无需额外设置,在导航界面即可直接使用。
目前该功能已支持北京、上海、广州、深圳、重庆、杭州六座城市,其他城市正在陆续上线。

