【第六届论文复现赛42题】 GPEN盲人脸修复模型 paddle复现
该模型的目标是对严重退化(模糊)的人脸图像中进行盲人脸恢复。作者将前人提出的stylegan V2的解码器嵌入模型,作为GPEN的解码器;用DNN重新构建了一种简单的编码器,为解码器提供输入。这样模型在保留了styleganV2解码器优秀的性能的基础上,将模型的功能由图像风格转换变为了人脸超分辨率重建。想了解更多论文内容可以查看论文地址。

1 模型简介
该模型的目标是对严重退化(模糊)的人脸图像中进行盲人脸恢复。作者将前人提出的stylegan V2的解码器嵌入模型,作为GPEN的解码器;用DNN重新构建了一种简单的编码器,为解码器提供输入。这样模型在保留了styleganV2解码器优秀的性能的基础上,将模型的功能由图像风格转换变为了人脸超分辨率重建。想了解更多论文内容可以查看论文地址。1.1 模型总体结构
该模型的总体结构如上图所示。左边的区域为生成器(Generator)的结构,绿色部分为编码器,中间的Mapping Network用于特征映射,这两部分为作者添加的结构。蓝色的部分为解码器,const为作者添加的噪声输入。最右侧的为对抗网络的鉴别器。其中解码器、鉴别器的结构与StyleGAN V2一致。
1.3 损失函数
该模型的损失函数可分为基础损失函数和修正损失函数。基础损失函数与作者论文中提到的内容相同。修正损失函数在论文中没有介绍,只在代码中体现。经过测试后发现,修正损失函数起到了非常重要的作用,用于抑制模型训练过程中的过拟合,且使模型对输入图像的噪声更具鲁棒性。有兴趣可以查看本项目的train.py文件中train()函数来了解该损失函数是如何实现的。接下来将主要介绍基础损失函数的组成。
该模型鉴别器的损失函数很简单,只有对抗网络中的对抗损失。而生成器的损失函数相对就比较复杂,由对抗损失La、内容损失Lc、特征损失Lf三部分构成。如下图所示:
对抗损失La在对抗网络中较为常见,要求鉴别器对生成器生成的图像的鉴别结果越接近1越好。内容损失Lc在该模型中,指的是生成图片与真实清晰图片间的L1范数距离,且作者采用Fast RCNN论文中提出来的SmoothL1 Loss来代替普通的L1-loss,这是因为smooth L1 loss让其对离群点、异常值不敏感,梯度变化相对更小,训练时更稳定。该模型用到的特征损失Lf和感知损失比较相似,主要的区别就是用到的模型不同。该论文计算Lf时用到的模型不是VGG网络,是前文提到的styleganV2 的鉴别器,通过该鉴别器对生成图片和真实图片计算特征图,进而计算特征损失。作者在论文中还提到上图中的α设置为1,β设置为0.02,但作者提供的代码中β值也设置为1。经过测试,该值选取为还是设置为1更好。
1.4 优化器
该模型采用Adam优化器进行优化。生成器的学习率设置为0.0016,鉴别器的学习率设置为0.0018,在训练过程中学习率采取固定值,不随训练批次下降。
1.5 数据集及数据预处理
GPEN模型训练集是经典的FFHQ人脸数据集,共70000张1024 x 1024高分辨率的清晰人脸图片,测试集是CELEBA-HQ数据集,共2000张高分辨率人脸图片。详细信息可以参考数据集网址: FFHQ ,CELEBA-HQ 。以下给出了具体的下载链接:
数据集下载地址:FFHQ, CELEBA-HQ
这两个数据集只有分辨率很高的人脸图,而训练时需要成对的退化-清晰人脸图片,因此需要自行生成退化的图片。在读取了一张高分辨率清晰图片后,需要先用opencv的resize函数降分辨率到相应的分辨率上,通常降为512x512或256x256的分辨率。其中256x256图片对应的模型训练较快,512的需要256的三倍以上的时间。需要注意的是,该模型对opencv resize函数用的插值规则鲁棒性较差,需要指定使用cv2.INTER_NEAREST插值方式。之后将图片像素值规范到[0,1]之间,就可以进行图片退化操作。作者使用的退化模型如下图所示:
其中I为清晰图像,先和退化核k进行卷积,产生退化,然后再添加高斯噪声nσ,最后再经过一种带有质量因子q的JPEG压缩算子进行压缩就得到了退化图像。将退化图像和真实清晰图像的像素值规范到[-1, 1]之间,就得到了一组训练数据。
1.6 训练细节
在训练策略上,经过测试,无需按作者在论文里提到的,先训练GAN Piror Network,直接对整体网络进行训练即可。
1.7 示例
下图从左到右依次是:生成的退化图像、恢复出的图像、真实清晰图像。
2 项目介绍
本项目基于paddlepaddle深度学习框架复现,我们将提供更加细节的训练流程,帮助有需要的人完成该模型的复现。
第三部分,我们将在3.1中介绍项目的代码结构,3.2中介绍用项目代码来复现模型的具体操作流程,3.3中对项目的代码细节进行介绍。
本项目复现精度如下表所示。该模型测试过程具有一定随机性,所以我在对比测试时固定了随机种子,下表中的测试数据是在同一组随机种子下得到的,如果更改随机种子,那得到的数据会有一定波动。
GPEN模型也集成到了PaddleGAN套件中,使用说明请参考说明文档.
3 开始复现
3.1 代码结构
GPEN/ |-- data_2/ #存放一些测试数据的文件夹 |-- data_loader/ #存放数据预处理相关的代码 |-- model/ #存放GPEN模型结构相关的代码 |-- loss/ #存放损失函数计算相关的代码 |-- metric/ #存放计算评估指标(FID,PSNR)相关的代码 |-- test_tipc/ #存放tipc相关文件 |-- ckpts/ #训练时生成的文件夹,用于存放训练过程中保存的模型参数 |-- samples/ #训练时生成的文件夹,用于存放训练过程中保存的测试图片,来直观地展示训练过程中模型生成图片的变化 |-- train.py #模型训练时调用 |-- test.py #模型评估时调用 |-- predict.py #用模型测试单张图片时调用 |-- export_model.py #tipc生成推理模型时调用 |-- infer.py #tipc进行推理时调用 |-- readme.md #项目说明文档登录后复制
3.2 具体操作
3.2.1 解压数据集
运行下面的kenel来解压数据集:
In [ ]!unzip -oq /home/aistudio/data/data142237/00000.zip -d data/train/!unzip -oq /home/aistudio/data/data142237/01000.zip -d data/train/!unzip -oq /home/aistudio/data/data142237/02000.zip -d data/train/!unzip -oq /home/aistudio/data/data142237/03000.zip -d data/train/!unzip -oq /home/aistudio/data/data142237/04000.zip -d data/train/!unzip -oq /home/aistudio/data/data142237/05000.zip -d data/train/!unzip -oq /home/aistudio/data/data142237/06000.zip -d data/train/!unzip -oq /home/aistudio/data/data142237/07000.zip -d data/train/!unzip -oq /home/aistudio/data/data142237/08000.zip -d data/train/!unzip -oq /home/aistudio/data/data142237/10000.zip -d data/train/!unzip -oq /home/aistudio/data/data142946/celehq.zip -d data/test/登录后复制
3.2.2 训练模型
对模型进行训练时,运行以下代码:
训练过程中会在ckpts/文件夹下生成train.log文件夹,用于保存训练日志。
如果要修改模型的参数,可修改的参数主要是size、mul和narrow,决定了模型针对的图片的分辨率,推荐选用256或512。如果要将size改为512,则要同时将mul改为2、narrow改为1,下面的操作步骤也是这样。
如果要改变训练的step数,需要修改max_iter 参数。
如果要从训练断点继续训练,则添加--pretrain参数为模型参数文件位置,并根据需要修改start_iter来保证训练日志的延续性。
In [ ]!python train.py --size 256 --mul 1 --narrow 0.5 --start_iter 0 --max_iter 150000 --batch_size 2 --train_path data/train/ --test_path data/test/celehq登录后复制
模型只支持单卡训练。
模型训练需使用paddle2.3及以上版本,且需等paddle实现elementwise_pow 的二阶算子相关功能,使用paddle2.2.2版本能正常运行,但因部分损失函数会求出错误梯度,导致模型无法训练成功。如训练时报错则暂不支持进行训练,可跳过训练部分,直接使用提供的模型参数进行测试。模型评估和测试使用paddle2.2.2及以上版本即可。
3.2.3 模型评估
对模型进行评估时,在控制台输入以下代码:
运行之后,模型会加载--w路径下的模型参数文件,然后在测试集对其FID和PSNR指标进行评估。
In [2]!python test.py --w data/data142946/G_256_weight_best.pdparams --test_path data/test/celehq --size 256 --mul 1 --narrow 0.5登录后复制
3.2.4 模型单图像测试
对模型进行单图像的简单测试时,在控制台输入以下代码。
如果要在自己提供的模型上进行测试,请将模型的路径放在 -w 后面。如要修改测试的图片,请修改--img后的模型参数。
In [ ]!python predict.py --size 256 --mul 1 --narrow 0.5 --w data/data142946/G_256_weight_best.pdparams --img data_2/GPEN/predict/test_img.webp登录后复制
3.3 Tipc
3.3.1 导出inference模型
以下命令将生成预测所需的模型结构文件model.pdmodel和模型权重文件model.pdiparams以及model.pdiparams.info文件,均存放在inference/GPEN/目录下。
In [ ]!python export_model.py --model_path data/data142946/G_256_weight_best.pdparams --save_dir inference/GPEN登录后复制
3.3.2 开始推理
推理结束会默认保存下模型生成的修复图像,并输出测试得到的FID和psnr值。
样例图片和对应的修复图像可查看1.7的示例。
输出示例如下:
result saved in : data/GPEN/predict/test_img_predict.webpFID: 151.78178552134233PSNR:21.65281356833421登录后复制 In [ ]
!python infer.py --model_file inference/GPEN/model.pdmodel --params_file inference/GPEN/model.pdiparams --img data_2/GPEN/predict/test_img.webp登录后复制
3.3.3 调用脚本两步完成训推一体测试
测试基本训练预测功能的lite_train_lite_infer模式,依次运行下面两行代码:
第一行代码会下载并解压少量测试数据。第二行代码会先进行少批次的训练并保存参数文件,接着加载保存的参数文件生成推理模型,最后进行推理。
In [ ]#准备数据!bash test_tipc/prepare.sh ./test_tipc/configs/GPEN/train_infer_python.txt 'lite_train_lite_infer'登录后复制 In [ ]
#运行测试!bash test_tipc/test_train_inference_python.sh ./test_tipc/configs/GPEN/train_infer_python.txt 'lite_train_lite_infer'#'lite_train_lite_infer'登录后复制
相关攻略
Trae在Python数据分析与机器学习项目中主要通过四种方式提供支持:利用Auto模式自动生成并执行端到端分析脚本;通过AgentCLI命令行自动化机器学习建模流程;对现有代码进行智能调试与优化;借助语音交互快速构建数据处理函数。这些功能覆盖了从需求描述到代码生成、模型构建及代码优化的全流程。
在Python编程中,你是否也曾编写过类似的统计代码? 统计词频 count = {} for word in words: if word in count: count[word] += 1 else: count[word] = 1 实际上,这种高频的计数需求,完全可以通过Python内置
Trae稳定支持Python3 10至3 13版本,3 9及以下版本无法运行。Python3 14处于实验性支持阶段,核心功能可能受限。当存在多个3 10以上版本时,Trae优先选择虚拟环境中的解释器,其次为最高系统版本。此外,Trae仅兼容64位Python解释器,不支持32位架构。
在企业级数据采集与自动化运维实践中,IT团队普遍面临一个核心挑战:Python爬虫为何频繁报错,修补维护何时才能终结?随着前端技术演进与动态反爬机制的日益复杂,依赖DOM解析的传统爬虫脚本往往陷入“部署即过时,运行即异常”的困境。本文将深入解析传统爬虫代码脆弱性的根本原因,并系统介绍一种能够重塑数据
很多刚接触Docker的开发者常有一个误解:制作镜像不就是把源代码打包进去就行了吗?实际上,在企业级的标准化开发流程中,直接将源码打包进Docker镜像是非常不专业的做法。这会导致镜像体积臃肿、引入潜在安全风险,并且模糊了“构建环境”与“运行环境”的边界。本文将深入解析Java、Vue、Go、Pyt
热门专题
热门推荐
玩家可通过三种方法获取《深海刮刮乐》公测时间:关注官方动态以获取权威公告;利用游戏社区APP的订阅功能接收自动提醒;查询手游开测日历了解测试排期。灵活运用这些方式可及时掌握游戏上线动向。
S1赛季5月29日开启,新英雄爆发射手孙尚香(高级战令获取)及其辅助龙牙(免费战令获得)登场。新开放“彩云盆地”、主线第九章及PVE副本“暗影试炼”,掉落红色武器进阶材料。建议优先培养孙尚香,开荒前囤积凝武突破材料等资源,合理规划体力,初期集中打通流脉12层并突破主武器。
《最强召唤师》手游公测时间备受关注。玩家可通过关注游戏官方社区获取一手公告,或借助专业APP订阅开测推送以接收即时提醒。此外,查询整合性的手游开测时间表也能掌握包括该游戏在内的新游动态。主动利用这些方法便能精准把握公测时机。
《指间山海:墟海洄渊》是一款奇幻冒险游戏,玩家可自定义角色并探索变幻莫测的山海世界。游戏强调探索与成长,需熟悉复杂地形、收集资源并发现隐藏区域。战斗中需灵活走位、组合技能并针对敌人弱点。推进主线与支线任务不仅能获取奖励,还可逐步揭开世界的古老秘密与宏大剧情。
IDC报告显示,2026年第一季度国内AIAgent社区月活用户激增187%。主流平台各具特色:美团觅游提供海量技能提升商家效率;字节扣子支持零代码搭建;腾讯元器深度集成微信生态;智谱清言擅长中文处理;Kimi专注超长文本分析。用户可依据需求与场景选择合适平台。





