机器人领域顶级学术会议IEEE国际机器人与自动化会议(ICRA 2026)传来喜讯,香港中文大学任洪亮教授团队的研究成果《EndoDDC:通过扩散深度补全实现内窥镜机器人导航的稀疏到稠密重建》成功入选。该研究精准切入微创手术中的关键技术瓶颈,为提升内镜机器人的自主导航精度与可靠性提供了创新解决方案。
论文题目:EndoDDC: Learning Sparse to Dense Reconstruction for Endoscopic Robotic Na vigation via Diffusion Depth Completion
论文作者:林胤恒†(香港中文大学),黄一鸣†(香港中文大学),崔贝雷(香港中文大学), 白龙(阿里巴巴达摩院,香港中文大学), 高沪昕(香港中文大学),任洪亮(香港中文大学), 赖捷文*(香港中文大学)
论文简介
在微创外科手术(MIS)中,内镜机器人的精准导航是提升手术操作精度、减少组织损伤并保障患者安全的关键。实现精准导航的核心前提在于获取高质量、高可靠性的三维深度信息。然而,内窥镜手术环境复杂,常面临组织表面弱纹理、镜面高光反射、动态流体干扰等挑战,使得传统的单目或双目深度估计方法效果受限,成为制约手术机器人智能化发展的技术难点。现有解决方案或严重依赖难以大规模获取的稠密深度标注数据,或在复杂真实内镜场景下鲁棒性欠佳,导致从稀疏点云到稠密深度图的重建质量难以满足临床导航需求。
为此,香港中文大学团队提出的EndoDDC方法,旨在攻克上述难题。该方法创新性地融合RGB图像信息、稀疏深度点云以及深度梯度特征,并引入先进的扩散模型(Diffusion Model)对深度图进行迭代优化,有效应对了内镜场景下弱纹理和反射干扰带来的深度估计不准问题。
主要贡献
EndoDDC的核心贡献在于,它专门为内窥镜场景设计了一套端到端的稀疏到稠密深度重建框架。该框架有效规避了传统监督学习方法对大量稠密标注数据的依赖,同时也解决了自监督深度估计中常见的尺度模糊问题。这意味着,系统仅需输入单帧RGB图像和对应的稀疏深度测量点,即可输出高精度、细节丰富的稠密深度图,极大增强了其在真实手术机器人系统中的实用性与易用性。
方法的一大创新点是深度梯度融合模块(Depth Gradient Fusion Module)。该模块利用卷积门控循环单元(ConvGRU),以迭代方式融合深度值信息与深度梯度特征,为整个重建过程提供了精确的几何结构引导。这一设计对于恢复弱纹理区域(如光滑器官表面)的连续几何形状起到了至关重要的作用。
此外,研究团队提出了基于深度梯度条件的扩散模型(Depth-conditioned Diffusion Model)。该模型以初步预测的粗糙深度图为起点,利用提取的深度梯度特征作为条件,引导扩散模型的反向去噪过程,通过多轮迭代优化,最终生成全局一致且符合物理约束的高质量稠密深度图。
为了验证方法的有效性,研究在C3VD和StereoMIS这两个权威的公开内镜数据集上进行了全面评估。实验结果表明,在RMSE(均方根误差)、MAE(平均绝对误差)、REL(相对误差)和δ准确率(δ<1.25)等所有核心评估指标上,EndoDDC均显著超越了当前最先进的深度补全与深度估计方法。具体数据上,在C3VD数据集中,相较于此前最优的深度补全模型OGNI-DC,EndoDDC将RMSE降低了5.28%,MAE降低了7.84%。更为突出的是,即使输入深度点的稀疏程度在50至50000个点之间剧烈变化,EndoDDC依然能稳定输出高质量的深度重建结果,展现了其卓越的鲁棒性和广泛的适用性。
EndoDDC方法概览和可视化样例
EndoDDC 概述:在从 RGB 图像和稀疏深度图提取特征后,Depth Grad Fusion 模块会基于深度和梯度特征迭代地更新状态隐藏网络。然后,将该输出输入到 Depth Diffusion 模型进行条件引导下的补全。
在 C3VD 和 STEREOMIS 数据集上与SOTA方法的深度补全结果比较。
在 C3VD 和 StereoMIS 数据集上的比较。我们将 EndoDDC 与最先进的深度估计和深度补全方法进行比较;我们的方法在组织细节方面产生的误差更少。
参考文献
Lin, Y., Huang, Y., Cui, B., Bai, L., Gao, H., Ren, H. & Lai, J. (2026). EndoDDC: Learning Sparse to Dense Reconstruction for Endoscopic Robotic Na vigation via Diffusion Depth Completion. ICRA 2026.
