字节等提出图像修复新范式HiFi-Inpaint入选CVPR 2026

时间：2026-06-09 15:36

针对人类-产品图像生成场景，提出高保真参考引导修复框架HiFi-Inpaint。通过高频图提取和共享增强注意力机制，将高频特征注入扩散模型，解决细节丢失问题。在HP-Image-40K数据集上训练，定量与定性实验表明，该方法在视觉一致性和细节保留上显著优于现有方法。

最近，一篇关于高保真参考引导式修复的论文《HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images》取得了重要技术突破。该论文已在arXiv（https://arxiv.org/abs/2603.02210）公开，同时代码也已开源（https://correr-zhou.github.io/HiFi-Inpaint），便于研究者复现与参考。

本工作的核心创新在于，针对人-产品图像生成场景，提出了一个高保真参考引导式修复框架，旨在精准保留产品细节。具体采用高频图进行像素级监督，相比传统粗粒度监督，该方法更细粒度且更具针对性。

方法

本文方法的核心思路是显式地将高频特征注入网络结构和损失函数，以解决扩散模型去噪过程中细节被“平均化”以及隐空间监督粗糙的问题。具体流程如下：首先通过频域高通滤波从参考商品图中提取高频图（包含文字边缘、Logo、精细纹理等关键细节）；然后在双流视觉DiT块中设计共享增强注意力模块（SEA），用高频图Token替换商品Token，并通过可学习的权重因子自适应地将高频特征注入掩码区域，相比固定权重能有效避免特征冲突和视觉伪影。 HiFi-Inpaint方法架构详解图

上图展示了HiFi-Inpaint的整体架构，清晰呈现从数据集构建到模型推理及训练的全流程。左侧数据集构建部分通过四个步骤自动生成并清洗高质量训练数据：首先利用FLUX模型根据文本提示生成“人-产品”双联图；接着通过边缘检测分割产品和人物；然后利用CLIP相似度和YOLOv8进行语义过滤确保主体一致性；最后用Intern-VL检测文本重叠，剔除文字错误的样本，最终获得包含4万张高质量样本的HP-Image-40K数据集。中间部分为模型的推理与训练机制：输入包括文本提示、人物图像和参考产品图；参考图经高频提取获得高频图，文本和图像特征分别通过Text Encoder和VAE Encoder编码，在DiT Blocks中融合——双流块利用共享增强注意力机制注入高频特征处理掩码区域，单流块处理未掩码区域，最后由VAE Decoder生成修复后的图像。

HiFi-Inpaint与现有主流方法的定性对比结果

上图展示了HiFi-Inpaint与ACE、Insert Anything、FLUX-Kontext等主流参考引导修复方法在“人-产品”图像生成任务上的定性对比。每组对比包含左侧的参考产品图（Ref.）、底部的原始输入图（Input），以及四种方法生成的修复图像和产品细节放大图。实验结果表明，HiFi-Inpaint在保持产品细节高保真度方面表现最优，能够精准还原产品上的微小文字（如“LYNAH GLOW”、“NOVA DEW”）、复杂Logo图案以及瓶身纹理质感；其他方法普遍出现文字扭曲、模糊、缺失或Logo变形等细节丢失问题。

HiFi-Inpaint消融实验定性对比结果

该消融实验定性对比图验证了核心组件Shared Enhancement Attention (SEA)和Detail-Aware Loss (DAL)的有效性。对比完整模型（HiFi-Inpaint）与去除SEA模块、以及同时去除SEA和DAL的变体，可见：完整模型生成的产品图像在文字清晰度、Logo还原度以及瓶身纹理细节上显著优于消融模型；特别是去掉DAL损失函数后，生成的产品文字变得模糊且无法辨认。这充分证明，SEA模块对特征融合至关重要，DAL损失函数则在指导模型精确还原高频细节方面发挥关键作用。

实验

下表展示了HiFi-Inpaint与Paint-by-Example、ACE、Insert Anything及FLUX-Kontext等主流方法在“人-产品”图像生成任务上的定量对比。评估指标涵盖文本对齐、视觉一致性和生成质量三个维度。数据显示，HiFi-Inpaint在视觉一致性方面表现最佳：CLIP-I（95.0%）、DINO（91.9%）和SSIM（63.4%）得分显著高于其他方法，说明其在保持产品外观与参考图高度一致方面极为出色；同时，在高频结构相似性（SSIM-HF）上取得42.9%的最高分，验证了对产品微小文字和纹理等细节的精准保留能力。尽管在部分生成质量指标上略逊于FLUX-Kontext，但整体综合表现仍处于领先地位。

来源：https://cloud.tencent.com.cn/developer/article/2684299

其他

上一篇LangGraph实战：状态图构建多步Agent工作流 下一篇AI在化学空间边缘可靠预测未知分子

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言在 Windows 本地开发环境中，直接安装 RabbitMQ 确实颇为周折：需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是，版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。相比之下，借助 Do

AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年，我们与福建制造企业合作较为频繁，发现一个非常突出的现象：超过80%的企业官网，产品参数仍然存放在PDF或图片中。AI爬虫？根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富，但在AI搜索这一全新战场上，它们几乎处于隐身状态。一、一个正在发生的行业变化 A

AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务，这一服务专为企业与开发者量身打造，定位为AI大模型订阅平台。通过引入Credits作为统一计量单位，将文本生成、图像生成等多模态AI能力纳入单一计费体系，同时无缝兼容主流AI编程工具及智能体（Agent）生态系统。其核心亮点包括：全

AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标，而位置数据的来源本质上是借助设备属性进行上传。换言之，若要让设备上报位置，您需先将其视为一个普通属性进行处理。 1）添加二维位置数据操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据，点击添加，将

AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年，阿里云服务器生态已高度成熟，形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网，还是运营电商平台、进行应用开发，基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维，系统梳理2026年最实用的操作要点，帮助你少走弯路，让网