论文复现:WS-DAN细粒度分类问题经典之作
本文复现了细粒度分类论文《See Better Before Looking Closer》,其提出弱监督数据增强网络,基于注意力图引导裁剪与丢弃进行增强。复现采用InceptionV3骨干,通过双线性池化生成特征矩阵分类。实验在鸟、飞机、汽车数据集上达原论文精度,体现该数据增强策略的有效性与优越性。

论文复现: See Better Before Looking Closer: Weakly Supervised Data Augmentation Network for Fine-Grained Visual Classification
一、简介
本篇论文标题名为See Better Before Looking Closer,这是一篇细粒度分类问题的经典论文,所谓细粒度,就是在一个大类下面对小类进行细分,如对鸟、狗的品种与车、飞机的型号进行分类。对于细粒度分类问题,一般的网络只能较为普通的中等性能,如(VGG、ResNet、Inception),而论文《 See Better Before Looking Closer: Weakly Supervised Data Augmentation Network for Fine-Grained Visual Classification》提出一种基于弱监督的数据增强网络,即基于注意力图引导的数据增强策略,也就是不仅仅将原图送入网络训练,将增强后的图片也送入到网络训练,最后loss取平均,该部分思想的示意图如图一所示。上半部分为训练阶段的增强策略,分别为Attention Cropping(基于注意力裁剪)与Attention Dropping(基于注意力丢弃);下半部分为测试验证阶段的增强策略,为基于注意力的裁剪,而后resize到原图尺寸大小送入网络进行预测。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
图一:基于注意力机制的数据增强值得注意的是,一般情况我们训练模型时使用的数据增强策略为随机丢弃(遮挡)、随即裁剪等,但是这种随机的方式目的性不强,且容易引入噪声,非常容易裁剪到背景(没有起到增强作用)、或者几乎把主体部分全部裁剪掉了(对于模型收敛有不利的影响),而本文作者提出基于注意力图生成候选区域进行有指向性的裁剪、丢弃,可谓绝佳一笔,随机数据增强方法与基于注意力引导的数据增强方法对比图如图二所示。通俗来说,基于注意图的数据增强策略的思想如下:由于注意力图会注意到图片中主题的一些细节部位,如鸟的嘴部,而通过注意力增强,鸟的嘴部会被裁剪掉,这是便会引导模型更加注重鸟的腹部、羽毛颜色等等其他信息,以此完成数据增强,这也是这篇文章的精髓所在,精度自然显著提升,后文对比试验中将会给出。
图二:随机裁剪与基于注意力的方式本文的模型结构骨干采用InceptionV3网络,利用其中的mix6e层作为特征图,进一步生成注意力图以进行数据增强,同时注意力图与特征图进行双线性池化(BAP)操作生成最终的特征矩阵,而后flatten送入全连接层进行分类,训练阶段的网络结构如图三所示,由于采取了基于注意力引导的数据增强,使得网络更加健壮,即呼应论文标题See Better,看得更好。
图三:训练阶段网络结构示意图测试test阶段网络整体结构大体相似,只是较训练阶段少了一个随机丢弃的数据增强操作,很明显测试阶段我们希望输入网络的图片有更加多的信息,因此也就不需要丢弃,所以这一步送入网络的图片为原图和利用特征图进行目标定位后裁剪并Resize的图像,最终预测结果概率二者取平均,这一步也叫做精修(Refinement)环节,也呼应了论文标题中的See Closer,看的更近。
图四:测试阶段网络结构示意图 相关攻略
Pywinrm 通过Windows远程管理(WinRM)协议,让Python能够像操作本地一样执行远程Windows命令,真正打通了跨平台管理的最后一公里。 在混合IT环境中,Linux机器管理Wi
早些时候,聊过 Python 领域那场惊心动魄的供应链攻击。当时我就感叹,虽然我们 JavaScript 开发者对这类套路烂熟于心,但亲眼目睹这种规模的“投毒”还是头一次。 早些时候,聊过 Pyth
Toga 是 BeeWare 家族的核心成员,号称“写一次,跑遍所有平台”,而且用的是系统原生控件,不是那种一看就是网页套壳的界面 。 写了这么多年 Python,你是不是也想过:要是能一套代码跑
异常处理的核心:让错误在正确的地方被有效处理。正确的地方,就是别在底层就把异常吞了,也别在顶层还抛裸奔的 Exception。 异常处理写得好,半夜不用起来改 bug。1 你是不是也这么干过?tr
1 Skills机制概述 提起OpenClaw的Skills机制,不少人可能会把它想象成传统意义上的可执行插件。其实,它的内涵要更精妙一些。 简单说,Skills本质上是一套基于提示驱动的能力扩展机制。它并不是一个可以独立“跑”起来的程序模块,而是通过一份结构化描述文件(核心就是那个SKILL m
热门专题
热门推荐
加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这
微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿
稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D
基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一
PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票





