首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
复旦交大联合研发自动驾驶空间记忆检索系统登顶CVPR 2026

复旦交大联合研发自动驾驶空间记忆检索系统登顶CVPR 2026

热心网友
91
转载
2026-05-21

复旦可信具身智能研究院&上海交大:给自动驾驶装上可检索的「空间记忆」丨CVPR 2026

从街景到仿真,离线地理信息正在成为车辆理解复杂道路的新线索。

大模型的发展揭示了一个趋势:智能体不能只依赖一次性的上下文输入,它们需要能够检索、利用和管理长期记忆。自动驾驶领域似乎也在走向类似的路径。车辆不应仅仅根据当前摄像头和传感器捕捉到的瞬时画面来做判断,它更需要一种可检索的“空间记忆”——能够随时调取当前位置长期积累的道路结构信息。这种记忆可以来自街景图、卫星图、历史地图,甚至是车队积累的行驶经验。当传感器因为各种原因“看不清、看不全、看不远”时,车辆依然能凭借这份记忆,理解自己所在的道路空间。

想想看,这类场景在真实道路上几乎无处不在。夜间经过一个没有路灯的路口,车道线被阴影吞没;雨天行驶在城区主干道,玻璃反光和水雾让路沿、人行横道变得模糊不清;驶入复杂的立交或多岔路口时,车端传感器看到的只是当前一小段画面,却需要对完整的道路结构做出判断。

人类司机在这种情况下,绝不会只依赖眼前的一帧画面。我们会下意识地调动对这条路的记忆:这里原本有几条车道,路口在哪里分叉,人行横道大概在什么位置,前方是不是高架匝道。这种“空间记忆”是人类驾驶的天然优势。

然而,长期以来,主流的自动驾驶模型大多被限制在实时传感器的输入之内。车辆只能根据当前摄像头、激光雷达或IMU看到的信息进行判断。一旦遇到遮挡、低光、雨雾或长尾场景,模型就容易失去稳定的空间参考,陷入“盲人摸象”的困境。

正是基于这一洞察,复旦大学可信具身智能研究院与上海交通大学的联合团队,在论文《Spatial Retrieval Augmented Autonomous Driving》中提出了一个关键思路:与其给车辆增加更昂贵的传感器,不如教会它“回忆”。根据车辆的GPS和位姿,系统可以自动检索对应位置的街景图、卫星图等历史地理图像,再将这些Geo信息与车载相机特征融合,为模型提供额外的道路结构参考。

更有意思的是,这项研究并没有把Geo图像包装成万能答案。实验结果反而清晰地划定了它的能力边界:地理图像最擅长补充的,是那些稳定、长期存在的道路结构信息,比如车道线、道路边界、人行道、建筑轮廓和可行驶区域。而对于车辆、行人这类实时变化的动态目标,它的帮助则相当有限。

这个结论让研究的意义更加明确——Geo信息的目标并非替代实时感知,而是要成为自动驾驶系统中的一种“空间先验”。它的作用是,当车辆看不清当前世界时,能够参考“这条路原本是什么样子”,从而获得一个稳定的认知锚点。

因此,这项工作的真正价值,或许不在于某个单一指标的提升,而在于它开启了一种新的自动驾驶范式:从“只依赖当前传感器”走向“实时感知 + 历史地理记忆”的融合。在自动驾驶进入长尾场景攻坚、安全冗余设计和世界模型竞争的新阶段后,这种检索增强的思路,很可能成为下一代系统理解复杂道路空间的重要补充。

复旦可信具身智能研究院&上海交大:给自动驾驶装上可检索的「空间记忆」丨CVPR 2026

论文地址:https://arxiv.org/pdf/2512.06865

01 Geo的适用边界

那么,这种“空间记忆”对不同自动驾驶任务的效果究竟如何?研究团队进行了一系列实验,发现不同任务对地理图像的受益程度差异显著。整体来看,静态道路结构相关的任务提升较大,而动态目标相关的任务提升则相对有限。

这背后的逻辑其实很直观:地理图像提供的是道路、车道、人行道和建筑等稳定的背景信息,但它无法反映当前时刻道路上飞驰的车辆和行走的行人。因此,它天然更适合作为空间结构的参考,而非动态场景的“实时转播”。

其中,在线建图是提升最明显的任务。这类任务主要识别车道线、道路边界、人行横道等静态元素,Geo图像能有效补充道路结构信息。实验中,MapTR的mAP从50.3提升到61.2,MapTRv2的mAP从61.5提升到73.4。尤其在低曝光、雨天和遮挡场景下,加入Geo后模型能够恢复更多道路细节,这相当于为模型提供了当前位置原本的道路结构蓝图。

占用预测同样获得了提升,但幅度没有在线建图那么显著。Geo的作用主要集中在可行驶区域、人行道和地形等静态区域。例如,FBOcc的整体mIoU从39.11提升到39.74,其中可行驶区域的IoU从80.07提升到82.47。这再次印证了Geo的核心优势在于理解道路的空间骨架。

相比之下,3D目标检测的提升就非常有限了。BEVFormer的mAP仅从41.60微升至41.64。原因很明确:目标检测关注的是实时动态的车辆和行人,而Geo图像属于离线地图或历史街景,无法提供这类信息。

复旦可信具身智能研究院&上海交大:给自动驾驶装上可检索的「空间记忆」丨CVPR 2026

端到端规划任务中,Geo对轨迹误差的影响不大,但能够提升安全性。实验结果显示,在夜间(Night)场景下,碰撞率从0.55%降到了0.48%。这说明Geo不一定能让预测轨迹更贴近真实轨迹,但在夜间、雨雾、复杂路口等低能见度环境中,它能提供更稳定的道路参考,从而帮助系统规避风险。

世界模型也是受益较明显的领域。研究人员发现,在长时间生成驾驶视频时,模型容易出现道路漂移和背景不一致的“幻觉”问题。而Geo图像能够提供真实道路结构的约束,让生成结果更加稳定。实验中,UVG的FVD指标从36.10降到了29.97。

最后的消融实验进一步验证了方法的有效性。没有Geo时,静态元素的mIoU为46.66,加入Geo后提升到47.86。这表明性能提升并非偶然,Geo图像、位置编码以及可靠性估计模块共同构成了系统性能提升的关键。

复旦可信具身智能研究院&上海交大:给自动驾驶装上可检索的「空间记忆」丨CVPR 2026

02 从地理检索到可靠融合

为了实现上述能力,研究团队首先基于nuScenes数据集构建了一个新的扩展数据集——nuScenes-Geography。其核心目标是让自动驾驶模型除了使用车载摄像头信息外,还能利用当前位置对应的地理图像信息。

具体做法是,根据nuScenes中提供的车辆位姿数据,计算出每一帧对应的经纬度坐标,再通过Google Maps API获取对应位置的街景图和卫星图。获取地理图像后,研究人员进一步将这些图像与车载相机画面进行空间对齐,使得模型能够同时看到“当前的车载视角”和“当前位置对应的历史地理视角”。数据显示,训练集中94.32%、验证集中92.41%的场景都能成功获取Geo信息,覆盖率相当高,确保了实验的广泛代表性。

复旦可信具身智能研究院&上海交大:给自动驾驶装上可检索的「空间记忆」丨CVPR 2026

在构建数据集时,团队遇到了一个实际问题:街景图并非按车辆每一帧单独采集,很多连续的车载帧实际上对应同一个街景位置。如果逐帧下载,会产生大量冗余数据,带来高昂的存储和计算成本。

为此,研究人员采用了更高效的策略:每个街景位置只下载一次数据。为了覆盖不同方向,他们会在同一位置下载18个不同方向的街景视角,并合成为一张全景图。然后,系统根据当前车载相机的方向、位置和视角参数,从这张全景图中重新投影,得到与当前驾驶视角最接近的Geo图像。这种方法相比逐帧下载街景裁剪图,节省了超过70%的存储空间,同时减少了数据冗余,提升了系统实际部署的可行性。

复旦可信具身智能研究院&上海交大:给自动驾驶装上可检索的「空间记忆」丨CVPR 2026

当然,Geo图像并非永远可靠。现实场景中,街景数据可能缺失、过时,GPS可能存在定位误差,高架与地面道路可能混淆,道路施工也可能导致环境巨变。如果模型盲目依赖这些信息,反而可能导致错误判断。

因此,研究团队专门设计了一个可靠性估计模块(REG),用于判断当前检索到的Geo图像是否可信。该模块会综合考虑Geo图像与当前车载图像之间的视觉相似性,以及地理位置之间的匹配程度,从而动态决定模型应该在多大程度上采纳Geo信息。

复旦可信具身智能研究院&上海交大:给自动驾驶装上可检索的「空间记忆」丨CVPR 2026

为了训练这个模块,团队人工标注了1800个错位样本。实验结果显示,训练集中有4.93%的图像存在错位,0.75%的图像缺失;验证集中错位图像占6.88%,缺失图像占0.71%。这些数据表明,研究并没有理想化地假设Geo永远正确,而是让系统学会在信息可信时增强使用,在不可靠时降低权重,从而提升整体鲁棒性。

数据处理完毕后,团队开始将Geo信息接入不同的自动驾驶任务进行验证。对于车端感知任务,流程是:先从车载图像中提取BEV特征,再将检索到的Geo图像编码成另一组特征,随后通过一个适配模块将两种特征融合到同一个空间表示中。研究覆盖了3D目标检测、在线建图、占用预测以及端到端规划等多个任务。

对于世界模型任务,策略则有所不同。由于世界模型需要生成未来的驾驶视频,系统会根据预测的未来轨迹,提前检索对应位置的地理图像,再利用这些Geo信息来约束未来场景的生成过程。这有助于减少长时间视频生成中间出现的道路漂移和背景幻觉问题。

整个实验流程的核心目标,是验证Geo能否成为自动驾驶系统中的一种有效“空间记忆”。团队并非只想证明某个模型指标略有提升,而是希望阐明一个更通用的思路:自动驾驶模型除了依赖当前传感器,还可以通过检索历史地理图像获得额外的空间参考。因此,他们将Geo接入了多个不同任务和模型中,以验证其通用性和能力边界。

复旦可信具身智能研究院&上海交大:给自动驾驶装上可检索的「空间记忆」丨CVPR 2026

03 从感知增强到仿真约束

这项研究最重要的贡献,或许不只是几个实验指标的提升,而是提出了一种新的自动驾驶系统设计思路。过去的系统主要依赖实时传感器输入,车辆只能根据“当前看到的内容”做判断。而这项工作证明,自动驾驶还可以主动检索当前位置对应的历史地理图像,从而获得一种类似“空间记忆”的能力。这意味着,自动驾驶模型开始从单纯的实时感知,转向“实时感知 + 历史空间记忆”相结合的范式。

研究团队认为,这项工作的真正意义在于打开了“检索增强自动驾驶”这个新方向。过去的研究更多聚焦于传感器、模型架构和端到端学习,而这项研究开始尝试将外部地理信息作为一种可检索的知识库引入系统。

展望未来,这个方向还有很大的扩展空间。例如,可以利用车队积累的历史行驶数据来构建更实时、更个性化的“记忆”,替代公开地图;或者同时检索车辆周围多个邻近视角的地理信息,构建更丰富的空间上下文,从而进一步提升自动驾驶系统对复杂环境的理解能力。

04 成果背后的科研团队

这项研究来自复旦大学可信具身智能研究院与上海交通大学的联合团队。其中,贾萧松博士是复旦大学可信具身智能研究院的助理教授。该研究院是复旦大学面向下一代人工智能设立的校级实体化科研机构,重点研究AI如何从数字空间走向物理世界。它不仅关注具身智能体“能不能感知、能不能行动”,更关注它们在真实环境中是否安全、可靠、可控。研究院围绕具身基础模型、数据引擎、具身交互、本体研制和可信机制五大方向展开布局,旨在打通从模型、数据、硬件到安全评估的全链条技术。

贾萧松博士本博均毕业于上海交通大学,师从严骏驰教授。其研究主要围绕自动驾驶与具身智能展开,覆盖端到端自动驾驶、闭环评测、世界模型、强化学习、轨迹预测、多传感器融合等方向。同时,他也关注利用生成式与重建式模型构建更真实的世界模拟器,并结合模仿学习与强化学习来训练端到端决策智能体。他已在IEEE TPAMI、IJCV、RSS、CVPR、ICCV、ECCV、NeurIPS、ICLR等顶级会议和期刊发表论文40余篇,谷歌学术引用超过4000次。其参与的研究曾获得ICCV 2024 Mair2 Workshop最佳学生论文奖、CVPR 2024最佳论文奖,并在2025年Waymo仿真智能体世界模型挑战赛中夺冠。此外,他还担任NeurIPS与ICLR的Area Chair,以及TPAMI、TRO等期刊的审稿人。

复旦可信具身智能研究院&上海交大:给自动驾驶装上可检索的「空间记忆」丨CVPR 2026

来源:https://www.leiphone.com/category/ai/lBfDuOrZbIkFXyzW.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

摩尔线程打通具身智能任督二脉 物理AI加速技术走进现实
AI资讯
摩尔线程打通具身智能任督二脉 物理AI加速技术走进现实

具身智能发展需打通仿真训练到物理部署全链路。摩尔线程基于全功能GPU与MUSA架构,推出MTLambda仿真平台,融合物理计算、3D渲染与AI引擎,实现高精度仿真与真实渲染。该方案适配主流开发生态,通过端云协同硬件与开放合作,提供国产自主的全链路算力支撑,加速具身智能技术落地与应用突破。

热心网友
05.22
头部高校视角:具身智能科研市场现状与趋势全解析
AI资讯
头部高校视角:具身智能科研市场现状与趋势全解析

科研市场是机器人行业稳定的现金流来源,其需求不仅限于硬件,更依赖高门槛的封闭生态,包括开源代码与社区资源,以支持研究复现与比较。市场注重稳定性、性价比及生态完善,而非单纯性能堆叠。当前硬件能力已显著提升,瓶颈主要在算法智能。随着技术深入与成本下降,科研市场前景广。

热心网友
05.21
富阳AI产业大会聚焦具身智能资本场景与产业链对话
AI资讯
富阳AI产业大会聚焦具身智能资本场景与产业链对话

2026年,人工智能的浪潮正以前所未有的势头,从纯粹的比特世界涌向真实的原子世界。过去一年,“具身智能”从一个前沿学术概念,迅速演变为全球科技与制造业竞相追逐的核心赛道。消费端,人形机器人频繁亮相,从实验室走向聚光灯下;而在产业深处,一场更深刻的变革正在发生——新能源制造、仓储物流、柔性产线、商业服

热心网友
05.21
对话灵初智能CEO王启斌:具身智能从硬件到数据的浪潮演进
科技数码
对话灵初智能CEO王启斌:具身智能从硬件到数据的浪潮演进

灵初智能开源SynData数据集以超10万小时人类真实操作数据登上全球榜首。公司通过自研手套低成本采集人类原生数据,训练具身智能模型,并采用双系统大模型优化动作规划。CEO王启斌指出行业正向数据驱动转型,计划以开源推动标准建立。公司目标2026年实现百万小时数据采集,提升模型泛化能力,聚。

热心网友
05.21
复旦交大联合研发自动驾驶空间记忆检索系统登顶CVPR 2026
AI资讯
复旦交大联合研发自动驾驶空间记忆检索系统登顶CVPR 2026

研究提出为自动驾驶系统装备可检索的“空间记忆”,通过融合历史地理图像补充道路结构信息。实验表明,该方法能提升对静态道路元素的理解,增强在低能见度环境下的稳定性和安全性,为自动驾驶提供了感知与记忆融合的新范式。

热心网友
05.21

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

币安交易所官网登录入口及最新版APP下载教程
web3.0
币安交易所官网登录入口及最新版APP下载教程

币安官方App致力于提供安全便捷的数字资产交易体验。本指南详细说明了通过官方渠道下载并安装最新版App的完整流程,包括下载前的网络与存储准备、分步安装步骤以及首次启动后的账户设置与安全验证建议。

热心网友
05.22
Polymarket预测市场合约遭攻击损失52万美元 UMA技术漏洞引关注
web3.0
Polymarket预测市场合约遭攻击损失52万美元 UMA技术漏洞引关注

Polymarket UMA CTF Adapter合约遭攻击,逾52万美元资产流失事件深度解析 2024年5月22日,一则由知名链上侦探ZachXBT披露的安全警报震动了Web3社区。据其调查,部署在Polygon网络上的Polymarket UMA CTF Adapter合约疑似遭受恶意攻击,初

热心网友
05.22
zkSync空投代币ZK未来三年价格预测与投资潜力分析
web3.0
zkSync空投代币ZK未来三年价格预测与投资潜力分析

ZK未来三年价格受技术发展、生态应用及市场情绪等多重因素影响,其潜力取决于网络采用率与整体加密市场趋势。投资者需综合考虑市场波动性与项目长期价值,谨慎评估风险。

热心网友
05.22
欧易OKX安卓版官方下载:交易所APP v6.143.0最新安装指南
web3.0
欧易OKX安卓版官方下载:交易所APP v6.143.0最新安装指南

欧易交易所应用是一款集资产浏览、市场监控与交易功能于一体的数字资产管理工具。用户下载安装时需确保网络稳定、存储空间充足,并允许未知来源应用。首次启动需授权必要权限,注册时建议设置强密码并启用二次验证,以保障账户安全。

热心网友
05.22
欧易OKX安卓版v6.150.0官方下载链接与安全安装指南
web3.0
欧易OKX安卓版v6.150.0官方下载链接与安全安装指南

欧易交易所应用:官方下载与安装全攻略 对于想要进入数字资产世界的朋友来说,一款安全、稳定且功能齐全的交易工具是必不可少的。欧易交易所应用正是这样一款面向全球的专业数字资产管理平台,它整合了丰富的市场信息和便捷的操作体验,致力于为用户提供一个可靠的服务入口。接下来的内容,将为您清晰呈现该应用的官方下载

热心网友
05.22