首页 游戏 软件 资讯 排行榜 专题
首页
AI
改进的注意力多尺度特征融合卷积神经网络

改进的注意力多尺度特征融合卷积神经网络

热心网友
11
转载
2025-07-18
本文改进注意力多尺度特征融合卷积神经网络,加入基于style的重新校准模块(SRM),通过样式池提取特征图通道样式信息,经通道无关的style集成估计权重,增强CNN表示能力且参数少。用Caltech101的16类数据集,对比VGG19、ResNet50等模型,改进模型性能提升较明显。

改进的注意力多尺度特征融合卷积神经网络 - 游乐网

① 项目背景

本文改进了注意力多尺度特征融合卷积神经网络,加入了一种基于style的重新校准模块(SRM),可以通过利用其style自适应地重新校准中间特征图。 SRM首先通过样式池从特征图的每个通道中提取样式信息,然后通过与通道无关的style集成来估计每个通道的重新校准权重。通过将各个style的相对重要性纳入特征图,SRM有效地增强了CNN的表示能力。重点是轻量级,引入的参数非常少,同时效果还不错。改进的注意力多尺度特征融合卷积神经网络 - 游乐网

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

论文地址:https://arxiv.org/pdf/1903.10829.pdf

② 数据准备

2.1 解压缩数据集

我们将网上获取的数据集以压缩包的方式上传到aistudio数据集中,并加载到我们的项目内。

在使用之前我们进行数据集压缩包的一个解压。

In [1]
!unzip -oq /home/aistudio/data/data69664/Images.zip -d work/dataset
登录后复制In [2]
import paddleimport numpy as npfrom typing import Callable#参数配置config_parameters = {    "class_dim": 16,  #分类数    "target_path":"/home/aistudio/work/",                         'train_image_dir': '/home/aistudio/work/trainImages',    'eval_image_dir': '/home/aistudio/work/evalImages',    'epochs':100,    'batch_size': 32,    'lr': 0.01}
登录后复制

2.2 划分数据集

接下来我们使用标注好的文件进行数据集类的定义,方便后续模型训练使用。

In [3]
import osimport shutiltrain_dir = config_parameters['train_image_dir']eval_dir = config_parameters['eval_image_dir']paths = os.listdir('work/dataset/Images')if not os.path.exists(train_dir):    os.mkdir(train_dir)if not os.path.exists(eval_dir):    os.mkdir(eval_dir)for path in paths:    imgs_dir = os.listdir(os.path.join('work/dataset/Images', path))    target_train_dir = os.path.join(train_dir,path)    target_eval_dir = os.path.join(eval_dir,path)    if not os.path.exists(target_train_dir):        os.mkdir(target_train_dir)    if not os.path.exists(target_eval_dir):        os.mkdir(target_eval_dir)    for i in range(len(imgs_dir)):        if ' ' in imgs_dir[i]:            new_name = imgs_dir[i].replace(' ', '_')        else:            new_name = imgs_dir[i]        target_train_path = os.path.join(target_train_dir, new_name)        target_eval_path = os.path.join(target_eval_dir, new_name)             if i % 5 == 0:            shutil.copyfile(os.path.join(os.path.join('work/dataset/Images', path), imgs_dir[i]), target_eval_path)        else:            shutil.copyfile(os.path.join(os.path.join('work/dataset/Images', path), imgs_dir[i]), target_train_path)print('finished train val split!')
登录后复制
finished train val split!
登录后复制

2.3 数据集定义与数据集展示

2.3.1 数据集展示

我们先看一下解压缩后的数据集长成什么样子,对比分析经典模型在Caltech101抽取16类mini版数据集上的效果

In [5]
import osimport randomfrom matplotlib import pyplot as pltfrom PIL import Imageimgs = []paths = os.listdir('work/dataset/Images')for path in paths:       img_path = os.path.join('work/dataset/Images', path)    if os.path.isdir(img_path):        img_paths = os.listdir(img_path)        img = Image.open(os.path.join(img_path, random.choice(img_paths)))        imgs.append((img, path))f, ax = plt.subplots(4, 4, figsize=(12,12))for i, img in enumerate(imgs[:16]):    ax[i//4, i%4].imshow(img[0])    ax[i//4, i%4].axis('off')    ax[i//4, i%4].set_title('label: %s' % img[1])plt.show()
登录后复制
登录后复制

2.3.2 导入数据集的定义实现

In [6]
#数据集的定义class Dataset(paddle.io.Dataset):    """    步骤一:继承paddle.io.Dataset类    """    def __init__(self, transforms: Callable, mode: str ='train'):        """        步骤二:实现构造函数,定义数据读取方式        """        super(Dataset, self).__init__()                self.mode = mode        self.transforms = transforms        train_image_dir = config_parameters['train_image_dir']        eval_image_dir = config_parameters['eval_image_dir']        train_data_folder = paddle.vision.DatasetFolder(train_image_dir)        eval_data_folder = paddle.vision.DatasetFolder(eval_image_dir)                if self.mode  == 'train':            self.data = train_data_folder        elif self.mode  == 'eval':            self.data = eval_data_folder    def __getitem__(self, index):        """        步骤三:实现__getitem__方法,定义指定index时如何获取数据,并返回单条数据(训练数据,对应的标签)        """        data = np.array(self.data[index][0]).astype('float32')        data = self.transforms(data)        label = np.array([self.data[index][1]]).astype('int64')                return data, label            def __len__(self):        """        步骤四:实现__len__方法,返回数据集总数目        """        return len(self.data)
登录后复制In [7]
from paddle.vision import transforms as T#数据增强transform_train =T.Compose([T.Resize((256,256)),                            #T.RandomVerticalFlip(10),                            #T.RandomHorizontalFlip(10),                            T.RandomRotation(10),                            T.Transpose(),                            T.Normalize(mean=[0, 0, 0],                           # 像素值归一化                                        std =[255, 255, 255]),                    # transforms.ToTensor(), # transpose操作 + (img / 255),并且数据结构变为PaddleTensor                            T.Normalize(mean=[0.50950350, 0.54632660, 0.57409690],# 减均值 除标准差                                            std= [0.26059777, 0.26041326, 0.29220656])# 计算过程:output[channel] = (input[channel] - mean[channel]) / std[channel]                            ])transform_eval =T.Compose([ T.Resize((256,256)),                            T.Transpose(),                            T.Normalize(mean=[0, 0, 0],                           # 像素值归一化                                        std =[255, 255, 255]),                    # transforms.ToTensor(), # transpose操作 + (img / 255),并且数据结构变为PaddleTensor                            T.Normalize(mean=[0.50950350, 0.54632660, 0.57409690],# 减均值 除标准差                                            std= [0.26059777, 0.26041326, 0.29220656])# 计算过程:output[channel] = (input[channel] - mean[channel]) / std[channel]                            ])
登录后复制

2.3.3 实例化数据集类

根据所使用的数据集需求实例化数据集类,并查看总样本量。

In [8]
train_dataset =Dataset(mode='train',transforms=transform_train)eval_dataset  =Dataset(mode='eval', transforms=transform_eval )#数据异步加载train_loader = paddle.io.DataLoader(train_dataset,                                     places=paddle.CUDAPlace(0),                                     batch_size=32,                                     shuffle=True,                                    #num_workers=2,                                    #use_shared_memory=True                                    )eval_loader = paddle.io.DataLoader (eval_dataset,                                     places=paddle.CUDAPlace(0),                                     batch_size=32,                                    #num_workers=2,                                    #use_shared_memory=True                                    )print('训练集样本量: {},验证集样本量: {}'.format(len(train_loader), len(eval_loader)))
登录后复制
训练集样本量: 45,验证集样本量: 12
登录后复制

③ 模型选择和开发

3.1 对比网络构建

本次我们选取了经典的卷积神经网络resnet50,vgg19,mobilenet_v2来进行实验比较。

In [ ]
network = paddle.vision.models.vgg19(num_classes=16)#模型封装model = paddle.Model(network)#模型可视化model.summary((-1, 3,256 , 256))
登录后复制In [ ]
network = paddle.vision.models.resnet50(num_classes=16)#模型封装model2 = paddle.Model(network)#模型可视化model2.summary((-1, 3,256 , 256))
登录后复制

3.2 对比网络训练

In [12]
#优化器选择class SaveBestModel(paddle.callbacks.Callback):    def __init__(self, target=0.5, path='work/best_model', verbose=0):        self.target = target        self.epoch = None        self.path = path    def on_epoch_end(self, epoch, logs=None):        self.epoch = epoch    def on_eval_end(self, logs=None):        if logs.get('acc') > self.target:            self.target = logs.get('acc')            self.model.save(self.path)            print('best acc is {} at epoch {}'.format(self.target, self.epoch))callback_visualdl = paddle.callbacks.VisualDL(log_dir='work/vgg19')callback_savebestmodel = SaveBestModel(target=0.5, path='work/best_model')callbacks = [callback_visualdl, callback_savebestmodel]base_lr = config_parameters['lr']epochs = config_parameters['epochs']def make_optimizer(parameters=None):    momentum = 0.9    learning_rate= paddle.optimizer.lr.CosineAnnealingDecay(learning_rate=base_lr, T_max=epochs, verbose=False)    weight_decay=paddle.regularizer.L2Decay(0.0001)    optimizer = paddle.optimizer.Momentum(        learning_rate=learning_rate,        momentum=momentum,        weight_decay=weight_decay,        parameters=parameters)    return optimizeroptimizer = make_optimizer(model.parameters())model.prepare(optimizer,              paddle.nn.CrossEntropyLoss(),              paddle.metric.Accuracy())model.fit(train_loader,          eval_loader,          epochs=100,          batch_size=1,           # 是否打乱样本集               callbacks=callbacks,           verbose=1)   # 日志展示格式
登录后复制

3.3 改进的注意力多尺度特征融合卷积神经网络SRM-Inception-Net

3.3.1 SRM模块的介绍

SRM首先通过样式池从特征图的每个通道中提取样式信息,然后通过与通道无关的style集成来估计每个通道的重新校准权重。通过将各个style的相对重要性纳入特征图,SRM有效地增强了CNN的表示能力。重点是轻量级,引入的参数非常少,其中Style Pooling是avgpool和stdpool拼接,Style Intergration就是一个自适应加权融合.

改进的注意力多尺度特征融合卷积神经网络 - 游乐网

图1 SRM模块细节示意图

In [9]
import paddle.nn as nnclass srm_layer(nn.Layer):    def __init__(self, channel):        super(srm_layer, self).__init__()        self.cfc = self.create_parameter(shape=[channel, 2], default_initializer=nn.initializer.Assign(paddle.zeros([channel, 2])))        self.bn = nn.BatchNorm2D(channel)        self.activation = nn.Sigmoid()        setattr(self.cfc, 'srm_param', True)        setattr(self.bn.weight, 'srm_param', True)        setattr(self.bn.bias, 'srm_param', True)    def _style_pooling(self, x, eps=1e-5):        N, C, _, _ = x.shape        channel_mean = paddle.mean(paddle.reshape(x, [N, C, -1]), axis=2, keepdim=True)        channel_var = paddle.var(paddle.reshape(x, [N, C, -1]), axis=2, keepdim=True) + eps        channel_std = paddle.sqrt(channel_var)        t = paddle.concat((channel_mean, channel_std), axis=2)        return t         def _style_integration(self, t):        z = t*paddle.reshape(self.cfc, [-1, self.cfc.shape[0], self.cfc.shape[1]])        tmp = paddle.sum(z, axis=2)        z = paddle.reshape(tmp, [tmp.shape[0], tmp.shape[1], 1, 1]) # B x C x 1 x 1        z_hat = self.bn(z)        g = self.activation(z_hat)        return g    def forward(self, x):        # B x C x 2        t = self._style_pooling(x)        # B x C x 1 x 1        g = self._style_integration(t)        return x * g
登录后复制

3.3.2 注意力多尺度特征融合卷积神经网络的搭建

In [10]
import paddle.nn.functional as F# 构建模型(Inception层)class Inception(paddle.nn.Layer):    def __init__(self, in_channels, c1, c2, c3, c4):        super(Inception, self).__init__()        # 路线1,卷积核1x1        self.route1x1_1 = paddle.nn.Conv2D(in_channels, c1, kernel_size=1)        # 路线2,卷积层1x1、卷积层3x3        self.route1x1_2 = paddle.nn.Conv2D(in_channels, c2[0], kernel_size=1)        self.route3x3_2 = paddle.nn.Conv2D(c2[0], c2[1], kernel_size=3, padding=1)        # 路线3,卷积层1x1、卷积层5x5        self.route1x1_3 = paddle.nn.Conv2D(in_channels, c3[0], kernel_size=1)        self.route5x5_3 = paddle.nn.Conv2D(c3[0], c3[1], kernel_size=5, padding=2)        # 路线4,池化层3x3、卷积层1x1        self.route3x3_4 = paddle.nn.MaxPool2D(kernel_size=3, stride=1, padding=1)        self.route1x1_4 = paddle.nn.Conv2D(in_channels, c4, kernel_size=1)    def forward(self, x):        route1 = F.relu(self.route1x1_1(x))        route2 = F.relu(self.route3x3_2(F.relu(self.route1x1_2(x))))        route3 = F.relu(self.route5x5_3(F.relu(self.route1x1_3(x))))        route4 = F.relu(self.route1x1_4(self.route3x3_4(x)))        out = [route1, route2, route3, route4]        return paddle.concat(out, axis=1)  # 在通道维度(axis=1)上进行连接# 构建 BasicConv2d 层def BasicConv2d(in_channels, out_channels, kernel, stride=1, padding=0):    layer = paddle.nn.Sequential(                paddle.nn.Conv2D(in_channels, out_channels, kernel, stride, padding),                 paddle.nn.BatchNorm2D(out_channels, epsilon=1e-3),                paddle.nn.ReLU())    return layer# 搭建网络class TowerNet(paddle.nn.Layer):    def __init__(self, in_channel, num_classes):        super(TowerNet, self).__init__()        self.b1 = paddle.nn.Sequential(                    BasicConv2d(in_channel, out_channels=64, kernel=3, stride=2, padding=1),                    paddle.nn.MaxPool2D(2, 2))        self.b2 = paddle.nn.Sequential(                    BasicConv2d(64, 128, kernel=3, padding=1),                    paddle.nn.MaxPool2D(2, 2))        self.b3 = paddle.nn.Sequential(                    BasicConv2d(128, 256, kernel=3, padding=1),                    paddle.nn.MaxPool2D(2, 2),                    srm_layer(256))        self.b4 = paddle.nn.Sequential(                    BasicConv2d(256, 256, kernel=3, padding=1),                    paddle.nn.MaxPool2D(2, 2),                    srm_layer(256))        self.b5 = paddle.nn.Sequential(                    Inception(256, 64, (64, 128), (16, 32), 32),                    paddle.nn.MaxPool2D(2, 2),                    srm_layer(256),                    Inception(256, 64, (64, 128), (16, 32), 32),                    paddle.nn.MaxPool2D(2, 2),                    srm_layer(256),                    Inception(256, 64, (64, 128), (16, 32), 32))        self.AvgPool2D=paddle.nn.AvgPool2D(2)        self.flatten=paddle.nn.Flatten()        self.b6 = paddle.nn.Linear(256, num_classes)    def forward(self, x):        x = self.b1(x)        x = self.b2(x)        x = self.b3(x)        x = self.b4(x)        x = self.b5(x)        x = self.AvgPool2D(x)        x = self.flatten(x)        x = self.b6(x)        return x
登录后复制In [11]
model = paddle.Model(TowerNet(3, config_parameters['class_dim']))model.summary((-1, 3, 256, 256))
登录后复制

④改进模型的训练和优化器的选择

In [12]
#优化器选择class SaveBestModel(paddle.callbacks.Callback):    def __init__(self, target=0.5, path='work/best_model', verbose=0):        self.target = target        self.epoch = None        self.path = path    def on_epoch_end(self, epoch, logs=None):        self.epoch = epoch    def on_eval_end(self, logs=None):        if logs.get('acc') > self.target:            self.target = logs.get('acc')            self.model.save(self.path)            print('best acc is {} at epoch {}'.format(self.target, self.epoch))callback_visualdl = paddle.callbacks.VisualDL(log_dir='work/SRM_Inception_Net')callback_savebestmodel = SaveBestModel(target=0.5, path='work/best_model')callbacks = [callback_visualdl, callback_savebestmodel]base_lr = config_parameters['lr']epochs = config_parameters['epochs']def make_optimizer(parameters=None):    momentum = 0.9    learning_rate= paddle.optimizer.lr.CosineAnnealingDecay(learning_rate=base_lr, T_max=epochs, verbose=False)    weight_decay=paddle.regularizer.L2Decay(0.0002)    optimizer = paddle.optimizer.Momentum(        learning_rate=learning_rate,        momentum=momentum,        weight_decay=weight_decay,        parameters=parameters)    return optimizeroptimizer = make_optimizer(model.parameters())
登录后复制In [13]
model.prepare(optimizer,              paddle.nn.CrossEntropyLoss(),              paddle.metric.Accuracy())
登录后复制In [14]
model.fit(train_loader,          eval_loader,          epochs=100,          batch_size=1,           # 是否打乱样本集               callbacks=callbacks,           verbose=1)   # 日志展示格式
登录后复制

⑤模型训练效果展示

绿色曲线为本次改进模型训练曲线,在增加了SRM模块的注意力机制后,性能和其他经典网络有了较大幅度的提升,但相较于SA注意力机制还稍差些。改进的注意力多尺度特征融合卷积神经网络 - 游乐网

来源:https://www.php.cn/faq/1414209.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

AI不止是技术:小红书联手复旦培养“人文+AI”复合型人才
AI
AI不止是技术:小红书联手复旦培养“人文+AI”复合型人才

AI不止是技术:小红书联手复旦培养“人文+AI”复合型人才 最近,小红书和复旦大学哲学学院联手干了一件挺有意思的事——双方正式合作,启动了“AI人文人才训练营”。这个项目的目标很明确:在AI技术模型完成基础的“后训练”阶段后,为其注入哲学与人文思维的养分,目标是培养出一批懂得技术、更理解人心的跨学科

热心网友
04.14
苹果2027年重磅发布!Apple Glasses首曝:不靠AR靠Siri,库克押注全天候AI眼镜
AI
苹果2027年重磅发布!Apple Glasses首曝:不靠AR靠Siri,库克押注全天候AI眼镜

苹果2027年重磅发布!Apple Glasses首曝:不靠AR靠Siri,库克押注全天候AI眼镜 十二月下旬,科技圈传出重磅消息。彭博社的资深记者马克・古尔曼在一份报告中,详细披露了苹果公司那款备受瞩目的“Apple Glasses”(亦有称Apple Vision)的最新动向。根据时间表,这款被

热心网友
04.14
当AI 榨干了编程所有的乐趣:我不再是程序员,而是“Claude Code”的项目经理
AI
当AI 榨干了编程所有的乐趣:我不再是程序员,而是“Claude Code”的项目经理

身份的剥夺:从“创造者”到“代码审查员” 过去,程序员的世界里,有一种近乎“庖丁解牛”的乐趣。那种从无到有,将抽象的业务逻辑变成一行行精巧代码的过程,带来的不仅是成就感,更是一种沉浸式的“心流”体验。这曾是许多开发者熬过漫漫长夜的精神支柱。 然而,时代似乎调了个头。如今,AI接过了“创造者”的大旗,

热心网友
04.14
AI大佬犀利发声:AI已淘汰大批岗位 大学还在批量生产过时人才
业界动态
AI大佬犀利发声:AI已淘汰大批岗位 大学还在批量生产过时人才

4月8日消息 AI技术的迭代速度有多快?快到足以让许多传统岗位一夜之间变得过时。然而,一个尴尬的现实摆在我们面前:当技术浪潮冲刷着就业市场时,不少国内高校的反应却慢了不止半拍。课程体系依旧停留在数年前的模样,按照过去的就业需求培养学生,结果就是,毕业生带着一身“旧装备”,闯入了一个已经彻底更新的竞技

热心网友
04.14
荣耀 MagicBook Pro 16 / 14 2026 款笔记本将上线全新 Magic 视界,支持 YOYO AI 智慧搜索等
科技数码
荣耀 MagicBook Pro 16 / 14 2026 款笔记本将上线全新 Magic 视界,支持 YOYO AI 智慧搜索等

荣耀 MagicBook Pro 16 14 2026 款前瞻:新交互、强性能与长效续航 备受期待的荣耀 MagicBook Pro 16 与 14 2026 款笔记本即将发布,官方近期又透露了关于其交互体验革新的重要信息,引发了广泛关注。 根据官方预热,该系列笔记本将首发搭载名为“全新 Mag

热心网友
04.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

豆包上线视频通话功能:支持实时互动 融合视觉语言输入能力
AI
豆包上线视频通话功能:支持实时互动 融合视觉语言输入能力

豆包上线视频通话功能:支持实时视频问答 最近,豆包官方放出了一个大消息:App正式上线了实时视频通话功能。这可不是简单的功能叠加,它实实在在地将用户交互体验,带进了一个全新的维度。 那么,这个新功能具体能做什么?简单来说,当你在豆包的电话界面开启视频画面,你面前的就不再是一个冷冰冰的聊天窗口了。豆包

热心网友
04.14
苹果即将向开发者开放其 AI 引擎,提升应用开发能力
AI
苹果即将向开发者开放其 AI 引擎,提升应用开发能力

苹果的AI新棋局:向开发者敞开设备端智能的大门 科技圈最近有个消息传得挺热:苹果正计划在2025年的全球开发者大会(WWDC)上,向第三方开发者开放其设备端AI模型。这步棋的目的很明确,就是要激发一波应用创新,并扩展其智能生态的边界。具体来说,苹果正在开发一个软件开发工具包(SDK),这个工具包将允

热心网友
04.14
OpenAI联合创始人:AI智能体十年内难堪大用,“智能体之年”言过其实
AI
OpenAI联合创始人:AI智能体十年内难堪大用,“智能体之年”言过其实

OpenAI联合创始人:AI智能体十年内难堪大用,“智能体之年”言过其实 最近,OpenAI的联合创始人安德烈·卡帕西(Andrej Karpathy)给出了一个颇为清醒的判断。他公开表示,我们今天谈论的AI智能体,距离真正意义上的“功能完善”,还有很长一段路要走。 话说回来,他的观点非常直接:眼下

热心网友
04.14
王者荣耀世界充值比例详解王者荣耀世界氪金机制与性价比分析
游戏攻略
王者荣耀世界充值比例详解王者荣耀世界氪金机制与性价比分析

《王者荣耀世界》:付费机制革新,从“数值碾压”到“个性表达” 随着《王者荣耀世界》正式上线,其独特的付费设计理念引发了广泛关注。一个明确的趋势是,这款游戏并未延续传统网游依赖数值付费的陈旧模式。其核心设计逻辑,旨在构建一个以深度叙事与自由探索为核心的开放世界。在此框架下,付费机制的角色发生了本质性转

热心网友
04.14
win10如何安装Redis数据库_win10Redis数据库的6种方式
系统平台
win10如何安装Redis数据库_win10Redis数据库的6种方式

Windows 10 安装 Redis 的六种方法详解 在 Windows 10 操作系统上安装 Redis 数据库,许多开发者会遇到官方不再提供原生 Windows 版本支持的难题。常见问题包括命令无法识别、Windows 服务注册失败或配置文件加载错误。这些问题通常源于版本兼容性、系统环境变量配

热心网友
04.14