复旦交大联合研发自动驾驶空间记忆检索系统登顶CVPR 2026

首页

AI资讯

热心网友

转载

2026-05-21

复旦可信具身智能研究院&上海交大：给自动驾驶装上可检索的「空间记忆」丨CVPR 2026

从街景到仿真，离线地理信息正在成为车辆理解复杂道路的新线索。

大模型的发展揭示了一个趋势：智能体不能只依赖一次性的上下文输入，它们需要能够检索、利用和管理长期记忆。自动驾驶领域似乎也在走向类似的路径。车辆不应仅仅根据当前摄像头和传感器捕捉到的瞬时画面来做判断，它更需要一种可检索的“空间记忆”——能够随时调取当前位置长期积累的道路结构信息。这种记忆可以来自街景图、卫星图、历史地图，甚至是车队积累的行驶经验。当传感器因为各种原因“看不清、看不全、看不远”时，车辆依然能凭借这份记忆，理解自己所在的道路空间。

想想看，这类场景在真实道路上几乎无处不在。夜间经过一个没有路灯的路口，车道线被阴影吞没；雨天行驶在城区主干道，玻璃反光和水雾让路沿、人行横道变得模糊不清；驶入复杂的立交或多岔路口时，车端传感器看到的只是当前一小段画面，却需要对完整的道路结构做出判断。

人类司机在这种情况下，绝不会只依赖眼前的一帧画面。我们会下意识地调动对这条路的记忆：这里原本有几条车道，路口在哪里分叉，人行横道大概在什么位置，前方是不是高架匝道。这种“空间记忆”是人类驾驶的天然优势。

然而，长期以来，主流的自动驾驶模型大多被限制在实时传感器的输入之内。车辆只能根据当前摄像头、激光雷达或IMU看到的信息进行判断。一旦遇到遮挡、低光、雨雾或长尾场景，模型就容易失去稳定的空间参考，陷入“盲人摸象”的困境。

正是基于这一洞察，复旦大学可信具身智能研究院与上海交通大学的联合团队，在论文《Spatial Retrieval Augmented Autonomous Driving》中提出了一个关键思路：与其给车辆增加更昂贵的传感器，不如教会它“回忆”。根据车辆的GPS和位姿，系统可以自动检索对应位置的街景图、卫星图等历史地理图像，再将这些Geo信息与车载相机特征融合，为模型提供额外的道路结构参考。

更有意思的是，这项研究并没有把Geo图像包装成万能答案。实验结果反而清晰地划定了它的能力边界：地理图像最擅长补充的，是那些稳定、长期存在的道路结构信息，比如车道线、道路边界、人行道、建筑轮廓和可行驶区域。而对于车辆、行人这类实时变化的动态目标，它的帮助则相当有限。

这个结论让研究的意义更加明确——Geo信息的目标并非替代实时感知，而是要成为自动驾驶系统中的一种“空间先验”。它的作用是，当车辆看不清当前世界时，能够参考“这条路原本是什么样子”，从而获得一个稳定的认知锚点。

因此，这项工作的真正价值，或许不在于某个单一指标的提升，而在于它开启了一种新的自动驾驶范式：从“只依赖当前传感器”走向“实时感知 + 历史地理记忆”的融合。在自动驾驶进入长尾场景攻坚、安全冗余设计和世界模型竞争的新阶段后，这种检索增强的思路，很可能成为下一代系统理解复杂道路空间的重要补充。

复旦可信具身智能研究院&上海交大：给自动驾驶装上可检索的「空间记忆」丨CVPR 2026

论文地址：https://arxiv.org/pdf/2512.06865

01 Geo的适用边界

那么，这种“空间记忆”对不同自动驾驶任务的效果究竟如何？研究团队进行了一系列实验，发现不同任务对地理图像的受益程度差异显著。整体来看，静态道路结构相关的任务提升较大，而动态目标相关的任务提升则相对有限。

这背后的逻辑其实很直观：地理图像提供的是道路、车道、人行道和建筑等稳定的背景信息，但它无法反映当前时刻道路上飞驰的车辆和行走的行人。因此，它天然更适合作为空间结构的参考，而非动态场景的“实时转播”。

其中，在线建图是提升最明显的任务。这类任务主要识别车道线、道路边界、人行横道等静态元素，Geo图像能有效补充道路结构信息。实验中，MapTR的mAP从50.3提升到61.2，MapTRv2的mAP从61.5提升到73.4。尤其在低曝光、雨天和遮挡场景下，加入Geo后模型能够恢复更多道路细节，这相当于为模型提供了当前位置原本的道路结构蓝图。

占用预测同样获得了提升，但幅度没有在线建图那么显著。Geo的作用主要集中在可行驶区域、人行道和地形等静态区域。例如，FBOcc的整体mIoU从39.11提升到39.74，其中可行驶区域的IoU从80.07提升到82.47。这再次印证了Geo的核心优势在于理解道路的空间骨架。

相比之下，3D目标检测的提升就非常有限了。BEVFormer的mAP仅从41.60微升至41.64。原因很明确：目标检测关注的是实时动态的车辆和行人，而Geo图像属于离线地图或历史街景，无法提供这类信息。

复旦可信具身智能研究院&上海交大：给自动驾驶装上可检索的「空间记忆」丨CVPR 2026

在端到端规划任务中，Geo对轨迹误差的影响不大，但能够提升安全性。实验结果显示，在夜间（Night）场景下，碰撞率从0.55%降到了0.48%。这说明Geo不一定能让预测轨迹更贴近真实轨迹，但在夜间、雨雾、复杂路口等低能见度环境中，它能提供更稳定的道路参考，从而帮助系统规避风险。

世界模型也是受益较明显的领域。研究人员发现，在长时间生成驾驶视频时，模型容易出现道路漂移和背景不一致的“幻觉”问题。而Geo图像能够提供真实道路结构的约束，让生成结果更加稳定。实验中，UVG的FVD指标从36.10降到了29.97。

最后的消融实验进一步验证了方法的有效性。没有Geo时，静态元素的mIoU为46.66，加入Geo后提升到47.86。这表明性能提升并非偶然，Geo图像、位置编码以及可靠性估计模块共同构成了系统性能提升的关键。

复旦可信具身智能研究院&上海交大：给自动驾驶装上可检索的「空间记忆」丨CVPR 2026

02 从地理检索到可靠融合

为了实现上述能力，研究团队首先基于nuScenes数据集构建了一个新的扩展数据集——nuScenes-Geography。其核心目标是让自动驾驶模型除了使用车载摄像头信息外，还能利用当前位置对应的地理图像信息。

具体做法是，根据nuScenes中提供的车辆位姿数据，计算出每一帧对应的经纬度坐标，再通过Google Maps API获取对应位置的街景图和卫星图。获取地理图像后，研究人员进一步将这些图像与车载相机画面进行空间对齐，使得模型能够同时看到“当前的车载视角”和“当前位置对应的历史地理视角”。数据显示，训练集中94.32%、验证集中92.41%的场景都能成功获取Geo信息，覆盖率相当高，确保了实验的广泛代表性。

复旦可信具身智能研究院&上海交大：给自动驾驶装上可检索的「空间记忆」丨CVPR 2026

在构建数据集时，团队遇到了一个实际问题：街景图并非按车辆每一帧单独采集，很多连续的车载帧实际上对应同一个街景位置。如果逐帧下载，会产生大量冗余数据，带来高昂的存储和计算成本。

为此，研究人员采用了更高效的策略：每个街景位置只下载一次数据。为了覆盖不同方向，他们会在同一位置下载18个不同方向的街景视角，并合成为一张全景图。然后，系统根据当前车载相机的方向、位置和视角参数，从这张全景图中重新投影，得到与当前驾驶视角最接近的Geo图像。这种方法相比逐帧下载街景裁剪图，节省了超过70%的存储空间，同时减少了数据冗余，提升了系统实际部署的可行性。

复旦可信具身智能研究院&上海交大：给自动驾驶装上可检索的「空间记忆」丨CVPR 2026

当然，Geo图像并非永远可靠。现实场景中，街景数据可能缺失、过时，GPS可能存在定位误差，高架与地面道路可能混淆，道路施工也可能导致环境巨变。如果模型盲目依赖这些信息，反而可能导致错误判断。

因此，研究团队专门设计了一个可靠性估计模块（REG），用于判断当前检索到的Geo图像是否可信。该模块会综合考虑Geo图像与当前车载图像之间的视觉相似性，以及地理位置之间的匹配程度，从而动态决定模型应该在多大程度上采纳Geo信息。

复旦可信具身智能研究院&上海交大：给自动驾驶装上可检索的「空间记忆」丨CVPR 2026

为了训练这个模块，团队人工标注了1800个错位样本。实验结果显示，训练集中有4.93%的图像存在错位，0.75%的图像缺失；验证集中错位图像占6.88%，缺失图像占0.71%。这些数据表明，研究并没有理想化地假设Geo永远正确，而是让系统学会在信息可信时增强使用，在不可靠时降低权重，从而提升整体鲁棒性。

数据处理完毕后，团队开始将Geo信息接入不同的自动驾驶任务进行验证。对于车端感知任务，流程是：先从车载图像中提取BEV特征，再将检索到的Geo图像编码成另一组特征，随后通过一个适配模块将两种特征融合到同一个空间表示中。研究覆盖了3D目标检测、在线建图、占用预测以及端到端规划等多个任务。

对于世界模型任务，策略则有所不同。由于世界模型需要生成未来的驾驶视频，系统会根据预测的未来轨迹，提前检索对应位置的地理图像，再利用这些Geo信息来约束未来场景的生成过程。这有助于减少长时间视频生成中间出现的道路漂移和背景幻觉问题。

整个实验流程的核心目标，是验证Geo能否成为自动驾驶系统中的一种有效“空间记忆”。团队并非只想证明某个模型指标略有提升，而是希望阐明一个更通用的思路：自动驾驶模型除了依赖当前传感器，还可以通过检索历史地理图像获得额外的空间参考。因此，他们将Geo接入了多个不同任务和模型中，以验证其通用性和能力边界。

复旦可信具身智能研究院&上海交大：给自动驾驶装上可检索的「空间记忆」丨CVPR 2026

03 从感知增强到仿真约束

这项研究最重要的贡献，或许不只是几个实验指标的提升，而是提出了一种新的自动驾驶系统设计思路。过去的系统主要依赖实时传感器输入，车辆只能根据“当前看到的内容”做判断。而这项工作证明，自动驾驶还可以主动检索当前位置对应的历史地理图像，从而获得一种类似“空间记忆”的能力。这意味着，自动驾驶模型开始从单纯的实时感知，转向“实时感知 + 历史空间记忆”相结合的范式。

研究团队认为，这项工作的真正意义在于打开了“检索增强自动驾驶”这个新方向。过去的研究更多聚焦于传感器、模型架构和端到端学习，而这项研究开始尝试将外部地理信息作为一种可检索的知识库引入系统。

展望未来，这个方向还有很大的扩展空间。例如，可以利用车队积累的历史行驶数据来构建更实时、更个性化的“记忆”，替代公开地图；或者同时检索车辆周围多个邻近视角的地理信息，构建更丰富的空间上下文，从而进一步提升自动驾驶系统对复杂环境的理解能力。

04 成果背后的科研团队

这项研究来自复旦大学可信具身智能研究院与上海交通大学的联合团队。其中，贾萧松博士是复旦大学可信具身智能研究院的助理教授。该研究院是复旦大学面向下一代人工智能设立的校级实体化科研机构，重点研究AI如何从数字空间走向物理世界。它不仅关注具身智能体“能不能感知、能不能行动”，更关注它们在真实环境中是否安全、可靠、可控。研究院围绕具身基础模型、数据引擎、具身交互、本体研制和可信机制五大方向展开布局，旨在打通从模型、数据、硬件到安全评估的全链条技术。

贾萧松博士本博均毕业于上海交通大学，师从严骏驰教授。其研究主要围绕自动驾驶与具身智能展开，覆盖端到端自动驾驶、闭环评测、世界模型、强化学习、轨迹预测、多传感器融合等方向。同时，他也关注利用生成式与重建式模型构建更真实的世界模拟器，并结合模仿学习与强化学习来训练端到端决策智能体。他已在IEEE TPAMI、IJCV、RSS、CVPR、ICCV、ECCV、NeurIPS、ICLR等顶级会议和期刊发表论文40余篇，谷歌学术引用超过4000次。其参与的研究曾获得ICCV 2024 Mair2 Workshop最佳学生论文奖、CVPR 2024最佳论文奖，并在2025年Waymo仿真智能体世界模型挑战赛中夺冠。此外，他还担任NeurIPS与ICLR的Area Chair，以及TPAMI、TRO等期刊的审稿人。

复旦可信具身智能研究院&上海交大：给自动驾驶装上可检索的「空间记忆」丨CVPR 2026