在真实场景下的图像复原任务中,计算机视觉领域长期面临着一块难啃的硬骨头。雾霾、阴影、噪声、运动模糊等复杂退化因素常常交织并存,使得经典的逆问题求解方法举步维艰。现有的扩散模型方法各有其局限性:条件生成方法难以兼顾保真度与真实感;基于反演的方法容易累积误差,导致输出与输入之间出现明显偏差;而后验采样方法(例如DPS)则需要精确已知的前向测量算子——在真实应用中这一条件几乎无法满足,严重制约了实际部署。
针对上述难题,本文提出了一套名为LearnIR的框架,相关成果已被ICLR 2026接收。其核心思路是通过训练一个轻量级网络来预测梯度校正分布,在不依赖前向算子的前提下完成扩散后验采样的校正;同时引入动态分辨率模块,有效抑制噪声。在多项图像复原基准测试中,LearnIR的PSNR、SSIM、LPIPS指标均达到了当前先进水平。
一、论文主要针对什么问题?
真实世界图像复原旨在从受到雾霾、阴影、噪声、运动模糊等多种退化影响的图像中恢复出高保真、高质量的清晰图像。实际成像环境中往往存在多种异质退化因素,且它们经常同时出现并相互交织,使得该问题成为一个经典的病态逆问题。
现有基于扩散模型的方法主要受限于以下三类瓶颈:
- 条件生成方法:难以在忠实复原与自然生成之间取得良好平衡;
- 基于反演的方法:在将退化图像反演至潜空间的过程中会逐步累积误差,导致输出与输入明显偏离,且计算效率较低;
- 后验采样方法(如DPS):要求精确已知的前向测量算子A(例如高斯模糊核、随机掩码等),然而在真实场景中该算子通常难以获取,极大限制了其实际应用范围。
二、核心贡献与效果概览
2.1 核心贡献
1. 可学习的扩散后验采样框架(LearnIR):通过训练轻量级网络直接预测后验采样中的梯度校正项分布,无需已知前向退化算子即可实现扩散后验采样的校正,从根源上突破了传统DPS方法的关键局限。
2. 扩散后验采样校正(DPSC):利用高斯分布的封闭性质,证明了前向过程中真实后验与模型预测反向分布之间的偏差服从高斯分布,进而可通过训练一个轻量网络来拟合该偏差的均值,作为即插即用的正则化项校正扩散轨迹,有效消除采样过程中的结构偏差与色偏等不一致性问题。
3. 动态分辨率模块(DRM):设计了时间依赖的动态分辨率调度策略,在像素空间中实现“从粗到细”的采样过程——高噪声阶段采用低分辨率以捕捉全局上下文,低噪声阶段恢复高分辨率以精修纹理细节,无需预训练VAE即可简化端到端流水线并降低计算开销。
2.2 关键理论
论文的核心定理(Theorem 1)证明:在DRM潜空间中,DPS梯度正比于模型预测的反向分布与真实前向后验之间的偏差:

借助高斯分布的封闭性质,该偏差可建模为:

其中均值μ和方差σ²均具有解析闭式解。通过训练网络μ_θ拟合解析均值μ,可有效引导采样轨迹与真实后验对齐。
2.3 效果预览
本文公式推导较多,想了解详细过程的读者可直接参考原文附录中的推导内容。先来预览一下实际效果:
第一排为原始图像,第二排为对应处理后的复原结果:

在去雾与去阴影数据集上,与其他代表性模型的对比效果如下:

三、论文提出的方法是什么?
LearnIR框架由两个互补模块构成:
3.1 动态分辨率模块(DRM)
定义时间依赖的缩放因子s(t),在不同扩散时间步将图像映射到不同分辨率的潜空间:
- 早期阶段(t ≥ T/2):对图像进行大尺度下采样(S = S_down),专注于全局结构建模;
- 后期阶段(t ≤ T/2):恢复原始分辨率(S = S_up),精修高频纹理细节。
采用高效且无需训练的双线性插值实现,避免了预训练VAE的需求,显著降低了计算成本。
3.2 扩散后验采样校正(DPSC)
在标准去噪损失之外引入一致性正则化项:
- 去噪损失:约束噪声预测网络ε_θ准确估计残差噪声;
- 一致性损失:约束校正网络μ_θ拟合前向-反向后验偏差的解析均值。
总损失函数:

推理时,DPSC作为一个即插即用模块,在每个采样步骤通过μ_θ预测梯度校正,自适应地修正扩散轨迹。
3.3 训练与推理
训练采用两阶段策略:
- 阶段1:固定分辨率训练(DRM关闭),专注于学习DPSC梯度校正;
- 阶段2:开启DRM,以更小的学习率在动态分辨率下进行微调。
推理基于残差扩散的平滑等效变换确定稳定的采样起点T',仅需5步采样即可生成高质量复原结果。
四、实验结果展示
4.1 数据集与设置
实验在5个数据集上进行:ISTD(阴影去除)、O-HAZE / HazyDet / REVIDE(去雾)以及自建的FaceShadow数据集(人脸阴影去除,包含30,000对合成数据 + 1,000对真实数据)。所有评估均在单张A100 GPU上完成,采样步数仅为5步。
4.2 阴影去除(ISTD数据集)

LearnIR在基于掩码(mask-based)的方法中取得了最佳表现,同时与无需掩码(mask-free)的最优方法相比也展现出竞争力。
4.3 去雾任务(O-HAZE / HazyDet / REVIDE)

LearnIR在三个去雾数据集上全面超越了所有对比方法,在O-HAZE上PSNR提升+2.27 dB,在HazyDet上PSNR提升+1.65 dB且SSIM提升+0.124。
4.4 人脸阴影去除(自建FaceShadow数据集)

LearnIR在合成与真实人脸阴影数据上均大幅领先,PSNR分别提升+2.44 dB和+1.71 dB。
4.5 消融实验

消融实验验证了DPSC和DRM两个模块的有效性:
- 去除DPSC导致PSNR下降4.4 dB,表明后验采样校正对消除轨迹不一致至关重要;
- 去除DRM导致PSNR下降1.27 dB,验证了动态分辨率策略对保持全局结构的重要性;
- 同时去除两者,性能大幅下降至22.86 dB,证明两个模块协同配合才能达到最优效果。
4.6 计算效率
DRM使用无需训练的双线性插值,计算开销几乎为零。完整模型仅需5步采样,总推理时间约1.6秒。

