游乐游手机版
首页/AI教程/文章详情

字节等提出图像修复新范式HiFi-Inpaint入选CVPR 2026

时间:2026-06-09 15:36
针对人类-产品图像生成场景,提出高保真参考引导修复框架HiFi-Inpaint。通过高频图提取和共享增强注意力机制,将高频特征注入扩散模型,解决细节丢失问题。在HP-Image-40K数据集上训练,定量与定性实验表明,该方法在视觉一致性和细节保留上显著优于现有方法。
最近,一篇关于高保真参考引导式修复的论文《HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images》取得了重要技术突破。该论文已在arXiv(https://arxiv.org/abs/2603.02210)公开,同时代码也已开源(https://correr-zhou.github.io/HiFi-Inpaint),便于研究者复现与参考。 \ 本工作的核心创新在于,针对人-产品图像生成场景,提出了一个高保真参考引导式修复框架,旨在精准保留产品细节。具体采用高频图进行像素级监督,相比传统粗粒度监督,该方法更细粒度且更具针对性。

方法

本文方法的核心思路是显式地将高频特征注入网络结构和损失函数,以解决扩散模型去噪过程中细节被“平均化”以及隐空间监督粗糙的问题。具体流程如下:首先通过频域高通滤波从参考商品图中提取高频图(包含文字边缘、Logo、精细纹理等关键细节);然后在双流视觉DiT块中设计共享增强注意力模块(SEA),用高频图Token替换商品Token,并通过可学习的权重因子自适应地将高频特征注入掩码区域,相比固定权重能有效避免特征冲突和视觉伪影。 HiFi-Inpaint方法架构详解图 \ 上图展示了HiFi-Inpaint的整体架构,清晰呈现从数据集构建到模型推理及训练的全流程。左侧数据集构建部分通过四个步骤自动生成并清洗高质量训练数据:首先利用FLUX模型根据文本提示生成“人-产品”双联图;接着通过边缘检测分割产品和人物;然后利用CLIP相似度和YOLOv8进行语义过滤确保主体一致性;最后用Intern-VL检测文本重叠,剔除文字错误的样本,最终获得包含4万张高质量样本的HP-Image-40K数据集。中间部分为模型的推理与训练机制:输入包括文本提示、人物图像和参考产品图;参考图经高频提取获得高频图,文本和图像特征分别通过Text Encoder和VAE Encoder编码,在DiT Blocks中融合——双流块利用共享增强注意力机制注入高频特征处理掩码区域,单流块处理未掩码区域,最后由VAE Decoder生成修复后的图像。

HiFi-Inpaint与现有主流方法的定性对比结果

\ 上图展示了HiFi-Inpaint与ACE、Insert Anything、FLUX-Kontext等主流参考引导修复方法在“人-产品”图像生成任务上的定性对比。每组对比包含左侧的参考产品图(Ref.)、底部的原始输入图(Input),以及四种方法生成的修复图像和产品细节放大图。实验结果表明,HiFi-Inpaint在保持产品细节高保真度方面表现最优,能够精准还原产品上的微小文字(如“LYNAH GLOW”、“NOVA DEW”)、复杂Logo图案以及瓶身纹理质感;其他方法普遍出现文字扭曲、模糊、缺失或Logo变形等细节丢失问题。

HiFi-Inpaint消融实验定性对比结果

\ 该消融实验定性对比图验证了核心组件Shared Enhancement Attention (SEA)和Detail-Aware Loss (DAL)的有效性。对比完整模型(HiFi-Inpaint)与去除SEA模块、以及同时去除SEA和DAL的变体,可见:完整模型生成的产品图像在文字清晰度、Logo还原度以及瓶身纹理细节上显著优于消融模型;特别是去掉DAL损失函数后,生成的产品文字变得模糊且无法辨认。这充分证明,SEA模块对特征融合至关重要,DAL损失函数则在指导模型精确还原高频细节方面发挥关键作用。

实验

下表展示了HiFi-Inpaint与Paint-by-Example、ACE、Insert Anything及FLUX-Kontext等主流方法在“人-产品”图像生成任务上的定量对比。评估指标涵盖文本对齐、视觉一致性和生成质量三个维度。数据显示,HiFi-Inpaint在视觉一致性方面表现最佳:CLIP-I(95.0%)、DINO(91.9%)和SSIM(63.4%)得分显著高于其他方法,说明其在保持产品外观与参考图高度一致方面极为出色;同时,在高频结构相似性(SSIM-HF)上取得42.9%的最高分,验证了对产品微小文字和纹理等细节的精准保留能力。尽管在部分生成质量指标上略逊于FLUX-Kontext,但整体综合表现仍处于领先地位。
来源:https://cloud.tencent.com.cn/developer/article/2684299
上一篇LangGraph实战:状态图构建多步Agent工作流 下一篇AI在化学空间边缘可靠预测未知分子
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网