字节等提出图像修复新范式HiFi-Inpaint入选CVPR 2026
时间:2026-06-09 15:36
针对人类-产品图像生成场景,提出高保真参考引导修复框架HiFi-Inpaint。通过高频图提取和共享增强注意力机制,将高频特征注入扩散模型,解决细节丢失问题。在HP-Image-40K数据集上训练,定量与定性实验表明,该方法在视觉一致性和细节保留上显著优于现有方法。
最近,一篇关于高保真参考引导式修复的论文《HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images》取得了重要技术突破。该论文已在arXiv(https://arxiv.org/abs/2603.02210)公开,同时代码也已开源(https://correr-zhou.github.io/HiFi-Inpaint),便于研究者复现与参考。

本工作的核心创新在于,针对人-产品图像生成场景,提出了一个高保真参考引导式修复框架,旨在精准保留产品细节。具体采用高频图进行像素级监督,相比传统粗粒度监督,该方法更细粒度且更具针对性。
方法
本文方法的核心思路是显式地将高频特征注入网络结构和损失函数,以解决扩散模型去噪过程中细节被“平均化”以及隐空间监督粗糙的问题。具体流程如下:首先通过频域高通滤波从参考商品图中提取高频图(包含文字边缘、Logo、精细纹理等关键细节);然后在双流视觉DiT块中设计共享增强注意力模块(SEA),用高频图Token替换商品Token,并通过可学习的权重因子自适应地将高频特征注入掩码区域,相比固定权重能有效避免特征冲突和视觉伪影。
HiFi-Inpaint方法架构详解图

上图展示了HiFi-Inpaint的整体架构,清晰呈现从数据集构建到模型推理及训练的全流程。左侧数据集构建部分通过四个步骤自动生成并清洗高质量训练数据:首先利用FLUX模型根据文本提示生成“人-产品”双联图;接着通过边缘检测分割产品和人物;然后利用CLIP相似度和YOLOv8进行语义过滤确保主体一致性;最后用Intern-VL检测文本重叠,剔除文字错误的样本,最终获得包含4万张高质量样本的HP-Image-40K数据集。中间部分为模型的推理与训练机制:输入包括文本提示、人物图像和参考产品图;参考图经高频提取获得高频图,文本和图像特征分别通过Text Encoder和VAE Encoder编码,在DiT Blocks中融合——双流块利用共享增强注意力机制注入高频特征处理掩码区域,单流块处理未掩码区域,最后由VAE Decoder生成修复后的图像。
HiFi-Inpaint与现有主流方法的定性对比结果

上图展示了HiFi-Inpaint与ACE、Insert Anything、FLUX-Kontext等主流参考引导修复方法在“人-产品”图像生成任务上的定性对比。每组对比包含左侧的参考产品图(Ref.)、底部的原始输入图(Input),以及四种方法生成的修复图像和产品细节放大图。实验结果表明,HiFi-Inpaint在保持产品细节高保真度方面表现最优,能够精准还原产品上的微小文字(如“LYNAH GLOW”、“NOVA DEW”)、复杂Logo图案以及瓶身纹理质感;其他方法普遍出现文字扭曲、模糊、缺失或Logo变形等细节丢失问题。
HiFi-Inpaint消融实验定性对比结果

该消融实验定性对比图验证了核心组件Shared Enhancement Attention (SEA)和Detail-Aware Loss (DAL)的有效性。对比完整模型(HiFi-Inpaint)与去除SEA模块、以及同时去除SEA和DAL的变体,可见:完整模型生成的产品图像在文字清晰度、Logo还原度以及瓶身纹理细节上显著优于消融模型;特别是去掉DAL损失函数后,生成的产品文字变得模糊且无法辨认。这充分证明,SEA模块对特征融合至关重要,DAL损失函数则在指导模型精确还原高频细节方面发挥关键作用。
实验

下表展示了HiFi-Inpaint与Paint-by-Example、ACE、Insert Anything及FLUX-Kontext等主流方法在“人-产品”图像生成任务上的定量对比。评估指标涵盖文本对齐、视觉一致性和生成质量三个维度。数据显示,HiFi-Inpaint在视觉一致性方面表现最佳:CLIP-I(95.0%)、DINO(91.9%)和SSIM(63.4%)得分显著高于其他方法,说明其在保持产品外观与参考图高度一致方面极为出色;同时,在高频结构相似性(SSIM-HF)上取得42.9%的最高分,验证了对产品微小文字和纹理等细节的精准保留能力。尽管在部分生成质量指标上略逊于FLUX-Kontext,但整体综合表现仍处于领先地位。