对于水下机器人而言,浑浊的海水无异于一堵无形的屏障。
当机器人潜入海底,或在沙地中执行挖掘、抓取等任务时,螺旋桨与机械臂极易搅动大量泥沙。短短数秒内,原本清晰的视野便会变得一片混沌,摄像头几乎完全失去作用。大多数情况下,机器人只能被迫停滞,等待泥沙逐渐沉降后再恢复作业。
这看似不是什么严重问题,但在水下排爆、深海打捞、海底设施巡检等场景中,这种等待不仅会严重拖慢机器人的作业效率,还会显著增加额外成本与安全风险——因为机器人若无法及时感知周围环境,极易发生猛烈碰撞或操作失误。
这一难题近期迎来了突破性进展:美国麻省理工学院与伍兹霍尔海洋研究所(Woods Hole Oceanographic Institution,WHOI)的工程师团队联合开发了一套名为 Sonar-MASt3R 的水下测绘系统。该系统能够将声呐传感器的声学数据与光学摄像头的视觉图像深度融合,使水下机器人在低能见度的浑浊水域中也能实时构建高精度三维地图。
该项研究由 MIT 航空航天系研究生 Amy Phung 主导,并与 WHOI 应用海洋物理与工程领域的资深科学家 Richard Camilli 合作完成。相关成果已在 ICRA 正式发表,并成功入选最佳论文候选名单。

图|Amy Phung(来源:WHOI)
推动该项研究的重要动因之一,是水下未爆弹药的高效清除。大量历史遗留爆炸物深埋于近岸海域的沉积物中,既威胁航运安全,也给海洋工程带来严峻挑战。
长期以来,水下感知技术始终在两种方案间权衡:光学摄像头与声呐。前者能提供丰富的纹理、色彩与细节信息,但对作业环境要求极为苛刻。一旦进入深海、夜间环境,或被泥沙和沉积物遮蔽的区域,相机获取的信息便会急剧下降。相比之下,声呐几乎不受水体浑浊度影响——它通过发射声波并分析回波来测量目标的距离、轮廓和深度,即使在完全看不见的环境中也能稳定工作。
但声呐同样存在局限。它擅长回答“那里有什么”,却很难辨识“那到底是什么”。相较于真实图像,声呐生成的结果如同一幅缺少纹理与色彩的地形图,只能勾勒出目标的大致轮廓。
因此,过去十余年间,研究人员一直致力于将视觉与声学两种感知方式整合起来,这一方向被称为“光学-声学融合(Opti-Acoustic Fusion)”。理论上,视觉负责提供细节,声呐负责提供距离与结构信息,两者结合可兼顾分辨率与鲁棒性。
然而,真正实现这一目标并不容易。此前大多数研究主要面向目标识别或局部场景重建,往往需要离线处理数据,难以满足实时作业需求。能够同时实现实时运行、三维建图,并适用于高浑浊水下环境的系统始终非常罕见。
但这一次,MIT 团队的 Sonar-MASt3R 做到了。它脱胎于一个名为 MASt3R(Matching And Stereo 3D Reconstruction,匹配与立体三维重建)的图像匹配算法。该算法由法国 Na ver Labs Europe 团队开发,并于 2024 年发表在 ECCV 欧洲计算机视觉大会上。而 MASt3R 又建立在更早的 DUSt3R 框架之上。

(来源:Na ver Labs Europe)
相比前代,MASt3R 的最大改进在于网络中新增了一个专门输出稠密局部特征图的模块(Head),并配合快速互惠匹配算法,能够从多张二维图像中快速估算场景内每个像素的相对深度,从而在不依赖相机位姿信息的情况下实时生成三维点云。
不过,MASt3R 也有一块短板:它输出的是相对深度而非绝对深度正如Amy Phung所说:“它会告诉你哪个像素比其他像素近5个单位——但它无法告知你这5个单位究竟是5米还是5英尺。对于水下机器人而言,精确判断绝对距离至关重要否则极易发生碰撞,这让它显得不够理想”。
这正是声呐所长之处 由于声波传播速度已知,声呐可通过回波返回的时间直接计算目标的实际
