论文复现：WS-DAN细粒度分类问题经典之作

时间:2025-07-24 作者:游乐小编

本文复现了细粒度分类论文《See Better Before Looking Closer》，其提出弱监督数据增强网络，基于注意力图引导裁剪与丢弃进行增强。复现采用InceptionV3骨干，通过双线性池化生成特征矩阵分类。实验在鸟、飞机、汽车数据集上达原论文精度，体现该数据增强策略的有效性与优越性。

论文复现：ws-dan细粒度分类问题经典之作 - 游乐网

论文复现: See Better Before Looking Closer: Weakly Supervised Data Augmentation Network for Fine-Grained Visual Classification

一、简介

本篇论文标题名为See Better Before Looking Closer，这是一篇细粒度分类问题的经典论文，所谓细粒度，就是在一个大类下面对小类进行细分，如对鸟、狗的品种与车、飞机的型号进行分类。对于细粒度分类问题，一般的网络只能较为普通的中等性能，如(VGG、ResNet、Inception)，而论文《 See Better Before Looking Closer: Weakly Supervised Data Augmentation Network for Fine-Grained Visual Classification》提出一种基于弱监督的数据增强网络，即基于注意力图引导的数据增强策略，也就是不仅仅将原图送入网络训练，将增强后的图片也送入到网络训练，最后loss取平均，该部分思想的示意图如图一所示。上半部分为训练阶段的增强策略，分别为Attention Cropping（基于注意力裁剪）与Attention Dropping（基于注意力丢弃）；下半部分为测试验证阶段的增强策略，为基于注意力的裁剪，而后resize到原图尺寸大小送入网络进行预测。

图一：基于注意力机制的数据增强

值得注意的是，一般情况我们训练模型时使用的数据增强策略为随机丢弃（遮挡）、随即裁剪等，但是这种随机的方式目的性不强，且容易引入噪声，非常容易裁剪到背景（没有起到增强作用）、或者几乎把主体部分全部裁剪掉了(对于模型收敛有不利的影响)，而本文作者提出基于注意力图生成候选区域进行有指向性的裁剪、丢弃，可谓绝佳一笔，随机数据增强方法与基于注意力引导的数据增强方法对比图如图二所示。通俗来说，基于注意图的数据增强策略的思想如下：由于注意力图会注意到图片中主题的一些细节部位，如鸟的嘴部，而通过注意力增强，鸟的嘴部会被裁剪掉，这是便会引导模型更加注重鸟的腹部、羽毛颜色等等其他信息，以此完成数据增强，这也是这篇文章的精髓所在，精度自然显著提升，后文对比试验中将会给出。

图二：随机裁剪与基于注意力的方式

本文的模型结构骨干采用InceptionV3网络，利用其中的mix6e层作为特征图，进一步生成注意力图以进行数据增强，同时注意力图与特征图进行双线性池化（BAP）操作生成最终的特征矩阵，而后flatten送入全连接层进行分类，训练阶段的网络结构如图三所示，由于采取了基于注意力引导的数据增强，使得网络更加健壮，即呼应论文标题See Better，看得更好。

图三：训练阶段网络结构示意图

测试test阶段网络整体结构大体相似，只是较训练阶段少了一个随机丢弃的数据增强操作，很明显测试阶段我们希望输入网络的图片有更加多的信息，因此也就不需要丢弃，所以这一步送入网络的图片为原图和利用特征图进行目标定位后裁剪并Resize的图像，最终预测结果概率二者取平均，这一步也叫做精修（Refinement）环节，也呼应了论文标题中的See Closer，看的更近。

图四：测试阶段网络结构示意图