先说一个核心判断:在野外非结构化环境中进行视觉深度估计,一直是一项极具挑战的任务。深海、冰川、农田这类场景通常纹理稀少,单目视觉在此条件下几乎等同于“盲人摸象”。然而,这些恰恰是移动机器人最需要精确感知的环境——谁也不希望机器人在冰面或水下横冲直撞。
最近,一项来自ICRA 2026的研究在这方面取得了突破。他们提出了一种深度补全模型,其设计思路颇具巧思:并非依赖昂贵的激光雷达或密集的传感器阵列,而是仅利用极其稀疏的深度测量点——每帧甚至只需约10个测量点——即可恢复出高精度的密集深度图。这对于控制成本、降低功耗以及提升部署灵活性而言,意义重大。
亮点速览
先来看看这项研究究竟解决了哪些问题,以及达到了怎样的效果。
攻克野外视觉盲区:在低纹理、缺乏绝对尺度信息的野外环境中,纯视觉单目深度估计往往“巧妇难为无米之炊”。这项研究另辟蹊径,借助极度稀疏的深度点(例如来自低成本雷达或特征点追踪),配合一个精妙的模型,成功“推断”出密集的度量级深度。简单来说,就是用微弱的传感器信号,撬动了强大的感知能力。
实现极低延迟部署:该算法运行在Nvidia Jetson AGX Orin这类边缘计算平台上,端到端延迟仅为53毫秒。这意味着每秒可处理接近19帧图像。对于野外移动机器人而言,这个速度完全足以应对实时导航与避障需求——毕竟在许多场景下,10帧/秒已能保障足够的响应能力。
创新点
能让这个看似“几乎不可能”的任务变为现实,主要归功于两个关键设计。
第四通道融合架构:该模型的核心基于当前SOTA单目深度估计模型Depth Anything V2(DA V2)进行构建。但直接套用DA V2显然行不通——它缺乏绝对尺度信息,且在野外场景下的泛化能力有限。为此,研究者巧妙地在DA V2的编码器中额外新增了一个“第四输入通道”,专门用于接收那些极度稀疏的深度测量值。这样一来,既保留了DA V2原有的强大泛化能力,又通过稀疏信号注入了绝对尺度信息。两大优势相互结合,效果自然显著提升。
针对野外场景的合成数据管线:训练这类模型所面临的最大瓶颈是什么?数据!野外环境下的真实深度数据集极度匮乏。研究者想出一个聪明的替代方案:先用无人机采集普通图像,再利用运动恢复结构(SfM)生成带纹理的3D网格,最后在Blender中渲染出多视角图像及其对应的深度真值。这套合成数据管线不仅成本低廉,更重要的是可以专门针对野外场景生成数据,例如低纹理、大尺度变化以及不规则光照等。这正是模型能够在新环境中“举一反三”的底气所在。
成果

图1:野外真实环境下的极稀疏深度补全表现。
(a) 这是五个此前未曾公开的复杂野外场景——工业厂房、农田、冰川、压载舱和水下峡湾。请注意图中那些蓝色的稀疏点图案,它们代表每帧中极少数量的稀疏深度测量值,这些测量值来源于低成本雷达或特征点追踪。(b) 这就是模型给出的输出结果。在缺乏绝对尺度且纹理匮乏的恶劣条件下,仅依靠这些稀疏提示,模型便能成功预测出高精度的密集度量深度图。从结果可以看到,无论是冰面不规则的轮廓,还是水下结构的复杂边缘,都被清晰地还原了出来。
