首页 游戏 软件 资讯 排行榜 专题
首页
AI
SimAM:无参数Attention!助力分类/检测/分割涨点!

SimAM:无参数Attention!助力分类/检测/分割涨点!

热心网友
11
转载
2025-07-18
本项目基于中山大学提出的无参数SimAM注意力机制,在Caltech101的16类子集上验证其效果。SimAM从神经科学出发,通过能量函数挖掘神经元重要性,生成三维权重,优于传统一维、二维注意力。项目构建含SimAM的TowerNet模型,与ResNet50等经典网络对比,经数据准备、模型训练后,显示加入SimAM后性能和鲁棒性显著提升,验证了其有效性。

simam:无参数attention!助力分类/检测/分割涨点! - 游乐网

① 项目背景

本文是中山大学在注意力机制方面的尝试,从神经科学理论出发,构建了一种能量函数挖掘神经元重要性,并对此推导出了解析解以加速计算。通过ImageNet分类、COCO检测与分割等任务验证了所提SimAM的灵活性与有效性。值得一提的是,所提SimAM是一种无参数注意力模块。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

现有的注意力模块通常被继承到每个块中,以改进来自先前层的输出。这种细化步骤通常沿着通道维度(a)或空间维度(b)操作,这些方法生成一维或二维权重,并平等对待每个通道或空间位置中的神经元,通道注意力:1D注意力,它对不同通道区别对待,对所有位置同等对待;空域注意力:2D注意力,它对不同位置区别对待,对所有通道同等对待。这可能会限制他们学习更多辨别线索的能力。因此三维权重©优于传统的一维和二维权重注意力。

原文中作者推导了一个能量函数,并发现了每个神经元的重要性。根据(Hillyard et al.,1998),哺乳动物大脑中的注意调节通常表现为神经元反应的增益(即缩放)效应,因此作者使用缩放运算符而不是加法来细化特征,项目后边有介绍函数推导过程。

SimAM:无参数Attention!助力分类/检测/分割涨点! - 游乐网

论文地址:https://proceedings.mlr.press/v139/yang21o.html

② 数据准备

2.1 解压缩数据集

我们将网上获取的数据集以压缩包的方式上传到aistudio数据集中,并加载到我们的项目内。

在使用之前我们进行数据集压缩包的一个解压。

In [1]
!unzip -oq /home/aistudio/data/data69664/Images.zip -d work/dataset
登录后复制In [1]
import paddleimport numpy as npfrom typing import Callable#参数配置config_parameters = {    "class_dim": 16,  #分类数    "target_path":"/home/aistudio/work/",                         'train_image_dir': '/home/aistudio/work/trainImages',    'eval_image_dir': '/home/aistudio/work/evalImages',    'epochs':100,    'batch_size': 32,    'lr': 0.01}
登录后复制

2.2 划分数据集

接下来我们使用标注好的文件进行数据集类的定义,方便后续模型训练使用。

In [3]
import osimport shutiltrain_dir = config_parameters['train_image_dir']eval_dir = config_parameters['eval_image_dir']paths = os.listdir('work/dataset/Images')if not os.path.exists(train_dir):    os.mkdir(train_dir)if not os.path.exists(eval_dir):    os.mkdir(eval_dir)for path in paths:    imgs_dir = os.listdir(os.path.join('work/dataset/Images', path))    target_train_dir = os.path.join(train_dir,path)    target_eval_dir = os.path.join(eval_dir,path)    if not os.path.exists(target_train_dir):        os.mkdir(target_train_dir)    if not os.path.exists(target_eval_dir):        os.mkdir(target_eval_dir)    for i in range(len(imgs_dir)):        if ' ' in imgs_dir[i]:            new_name = imgs_dir[i].replace(' ', '_')        else:            new_name = imgs_dir[i]        target_train_path = os.path.join(target_train_dir, new_name)        target_eval_path = os.path.join(target_eval_dir, new_name)             if i % 5 == 0:            shutil.copyfile(os.path.join(os.path.join('work/dataset/Images', path), imgs_dir[i]), target_eval_path)        else:            shutil.copyfile(os.path.join(os.path.join('work/dataset/Images', path), imgs_dir[i]), target_train_path)print('finished train val split!')
登录后复制

2.3 数据集定义与数据集展示

2.3.1 数据集展示

我们先看一下解压缩后的数据集长成什么样子,对比分析经典模型在Caltech101抽取16类mini版数据集上的效果

该数据集的源为Caltech101,本次实验共抽取16类来进行比较。该数据集一共有验证集1440=4532张图片,验证集384=1232张照片。该数据集主要有以下集中类型的图片,在下方展示。In [3]
import osimport randomfrom matplotlib import pyplot as pltfrom PIL import Imageimgs = []paths = os.listdir('work/dataset/Images')for path in paths:       img_path = os.path.join('work/dataset/Images', path)    if os.path.isdir(img_path):        img_paths = os.listdir(img_path)        img = Image.open(os.path.join(img_path, random.choice(img_paths)))        imgs.append((img, path))f, ax = plt.subplots(4, 4, figsize=(12,12))for i, img in enumerate(imgs[:16]):    ax[i//4, i%4].imshow(img[0])    ax[i//4, i%4].axis('off')    ax[i//4, i%4].set_title('label: %s' % img[1])plt.show()
登录后复制
登录后复制

2.3.2 导入数据集的定义实现

In [2]
#数据集的定义class Dataset(paddle.io.Dataset):    """    步骤一:继承paddle.io.Dataset类    """    def __init__(self, transforms: Callable, mode: str ='train'):        """        步骤二:实现构造函数,定义数据读取方式        """        super(Dataset, self).__init__()                self.mode = mode        self.transforms = transforms        train_image_dir = config_parameters['train_image_dir']        eval_image_dir = config_parameters['eval_image_dir']        train_data_folder = paddle.vision.DatasetFolder(train_image_dir)        eval_data_folder = paddle.vision.DatasetFolder(eval_image_dir)                if self.mode  == 'train':            self.data = train_data_folder        elif self.mode  == 'eval':            self.data = eval_data_folder    def __getitem__(self, index):        """        步骤三:实现__getitem__方法,定义指定index时如何获取数据,并返回单条数据(训练数据,对应的标签)        """        data = np.array(self.data[index][0]).astype('float32')        data = self.transforms(data)        label = np.array([self.data[index][1]]).astype('int64')                return data, label            def __len__(self):        """        步骤四:实现__len__方法,返回数据集总数目        """        return len(self.data)
登录后复制In [3]
from paddle.vision import transforms as T#数据增强transform_train =T.Compose([T.Resize((256,256)),                            #T.RandomVerticalFlip(10),                            #T.RandomHorizontalFlip(10),                            T.RandomRotation(10),                            T.Transpose(),                            T.Normalize(mean=[0, 0, 0],                           # 像素值归一化                                        std =[255, 255, 255]),                    # transforms.ToTensor(), # transpose操作 + (img / 255),并且数据结构变为PaddleTensor                            T.Normalize(mean=[0.50950350, 0.54632660, 0.57409690],# 减均值 除标准差                                            std= [0.26059777, 0.26041326, 0.29220656])# 计算过程:output[channel] = (input[channel] - mean[channel]) / std[channel]                            ])transform_eval =T.Compose([ T.Resize((256,256)),                            T.Transpose(),                            T.Normalize(mean=[0, 0, 0],                           # 像素值归一化                                        std =[255, 255, 255]),                    # transforms.ToTensor(), # transpose操作 + (img / 255),并且数据结构变为PaddleTensor                            T.Normalize(mean=[0.50950350, 0.54632660, 0.57409690],# 减均值 除标准差                                            std= [0.26059777, 0.26041326, 0.29220656])# 计算过程:output[channel] = (input[channel] - mean[channel]) / std[channel]                            ])
登录后复制

2.3.3 实例化数据集类

根据所使用的数据集需求实例化数据集类,并查看总样本量。

In [4]
train_dataset =Dataset(mode='train',transforms=transform_train)eval_dataset  =Dataset(mode='eval', transforms=transform_eval )#数据异步加载train_loader = paddle.io.DataLoader(train_dataset,                                     places=paddle.CUDAPlace(0),                                     batch_size=32,                                     shuffle=True,                                    #num_workers=2,                                    #use_shared_memory=True                                    )eval_loader = paddle.io.DataLoader (eval_dataset,                                     places=paddle.CUDAPlace(0),                                     batch_size=32,                                    #num_workers=2,                                    #use_shared_memory=True                                    )print('训练集样本量: {},验证集样本量: {}'.format(len(train_loader), len(eval_loader)))
登录后复制
训练集样本量: 45,验证集样本量: 12
登录后复制

③ 模型选择和开发

3.1 对比网络构建

本次我们选取了经典的卷积神经网络resnet50,vgg19,mobilenet_v2来进行实验比较。

In [ ]
network = paddle.vision.models.vgg19(num_classes=16)#模型封装model = paddle.Model(network)#模型可视化model.summary((-1, 3,256 , 256))
登录后复制In [ ]
network = paddle.vision.models.resnet50(num_classes=16)#模型封装model2 = paddle.Model(network)#模型可视化model2.summary((-1, 3,256 , 256))
登录后复制

3.2 对比网络训练

In [ ]
#优化器选择class SaveBestModel(paddle.callbacks.Callback):    def __init__(self, target=0.5, path='work/best_model', verbose=0):        self.target = target        self.epoch = None        self.path = path    def on_epoch_end(self, epoch, logs=None):        self.epoch = epoch    def on_eval_end(self, logs=None):        if logs.get('acc') > self.target:            self.target = logs.get('acc')            self.model.save(self.path)            print('best acc is {} at epoch {}'.format(self.target, self.epoch))callback_visualdl = paddle.callbacks.VisualDL(log_dir='work/vgg19')callback_savebestmodel = SaveBestModel(target=0.5, path='work/best_model')callbacks = [callback_visualdl, callback_savebestmodel]base_lr = config_parameters['lr']epochs = config_parameters['epochs']def make_optimizer(parameters=None):    momentum = 0.9    learning_rate= paddle.optimizer.lr.CosineAnnealingDecay(learning_rate=base_lr, T_max=epochs, verbose=False)    weight_decay=paddle.regularizer.L2Decay(0.0001)    optimizer = paddle.optimizer.Momentum(        learning_rate=learning_rate,        momentum=momentum,        weight_decay=weight_decay,        parameters=parameters)    return optimizeroptimizer = make_optimizer(model.parameters())model.prepare(optimizer,              paddle.nn.CrossEntropyLoss(),              paddle.metric.Accuracy())model.fit(train_loader,          eval_loader,          epochs=100,          batch_size=1,           # 是否打乱样本集               callbacks=callbacks,           verbose=1)   # 日志展示格式
登录后复制

3.3 Simam注意力机制

3.3.1 simam_module模块的介绍

一个simam_module块可以被看作是一个计算单元,旨在增强卷积神经网络中特征的表达能力。它可以将任何中间特征张量作为输入并通过转换输出了与张量具有相同size同时具有增强表征的作用。SimAM:无参数Attention!助力分类/检测/分割涨点! - 游乐网

3.3.2 Simam注意力机制推导公式

SimAM:无参数Attention!助力分类/检测/分割涨点! - 游乐网

In [5]
import paddlefrom paddle.fluid.layers.nn import transposeimport paddle.nn as nnimport mathimport paddle.nn.functional as Fclass simam_module(nn.Layer):    def __init__(self, channels, e_lambda = 1e-4):        super(simam_module, self).__init__()        self.activaton = nn.Sigmoid()        self.e_lambda = e_lambda    def __repr__(self):        s = self.__class__.__name__ + '('        s += ('lambda=%f)' % self.e_lambda)        return s    @staticmethod    def get_module_name():        return "simam"    def forward(self, x):        b, c, h, w = x.shape                n = w * h - 1        x_minus_mu_square = (x - x.mean(axis=[2,3], keepdim=True)).pow(2)        y = x_minus_mu_square / (4 * (x_minus_mu_square.sum(axis=[2,3], keepdim=True) / n + self.e_lambda)) + 0.5        return x * self.activaton(y)if __name__ == '__main__':    x = paddle.randn(shape=[1, 16, 64, 128])    # b, c, h, w    simam = simam_module(16)    y = simam(x)    print(y.shape)
登录后复制

3.3.3 注意力多尺度特征融合卷积神经网络的搭建

In [6]
import paddle.nn.functional as F# 构建模型(Inception层)class Inception(paddle.nn.Layer):    def __init__(self, in_channels, c1, c2, c3, c4):        super(Inception, self).__init__()        # 路线1,卷积核1x1        self.route1x1_1 = paddle.nn.Conv2D(in_channels, c1, kernel_size=1)        # 路线2,卷积层1x1、卷积层3x3        self.route1x1_2 = paddle.nn.Conv2D(in_channels, c2[0], kernel_size=1)        self.route3x3_2 = paddle.nn.Conv2D(c2[0], c2[1], kernel_size=3, padding=1)        # 路线3,卷积层1x1、卷积层5x5        self.route1x1_3 = paddle.nn.Conv2D(in_channels, c3[0], kernel_size=1)        self.route5x5_3 = paddle.nn.Conv2D(c3[0], c3[1], kernel_size=5, padding=2)        # 路线4,池化层3x3、卷积层1x1        self.route3x3_4 = paddle.nn.MaxPool2D(kernel_size=3, stride=1, padding=1)        self.route1x1_4 = paddle.nn.Conv2D(in_channels, c4, kernel_size=1)    def forward(self, x):        route1 = F.relu(self.route1x1_1(x))        route2 = F.relu(self.route3x3_2(F.relu(self.route1x1_2(x))))        route3 = F.relu(self.route5x5_3(F.relu(self.route1x1_3(x))))        route4 = F.relu(self.route1x1_4(self.route3x3_4(x)))        out = [route1, route2, route3, route4]        return paddle.concat(out, axis=1)  # 在通道维度(axis=1)上进行连接# 构建 BasicConv2d 层def BasicConv2d(in_channels, out_channels, kernel, stride=1, padding=0):    layer = paddle.nn.Sequential(                paddle.nn.Conv2D(in_channels, out_channels, kernel, stride, padding),                 paddle.nn.BatchNorm2D(out_channels, epsilon=1e-3),                paddle.nn.ReLU())    return layer# 搭建网络class TowerNet(paddle.nn.Layer):    def __init__(self, in_channel, num_classes):        super(TowerNet, self).__init__()        self.b1 = paddle.nn.Sequential(                    BasicConv2d(in_channel, out_channels=64, kernel=3, stride=2, padding=1),                    paddle.nn.MaxPool2D(2, 2))        self.b2 = paddle.nn.Sequential(                    BasicConv2d(64, 128, kernel=3, padding=1),                    paddle.nn.MaxPool2D(2, 2))        self.b3 = paddle.nn.Sequential(                    BasicConv2d(128, 256, kernel=3, padding=1),                    paddle.nn.MaxPool2D(2, 2),                    simam_module(256))        self.b4 = paddle.nn.Sequential(                    BasicConv2d(256, 256, kernel=3, padding=1),                    paddle.nn.MaxPool2D(2, 2),                    simam_module(256))        self.b5 = paddle.nn.Sequential(                    Inception(256, 64, (64, 128), (16, 32), 32),                    paddle.nn.MaxPool2D(2, 2),                    simam_module(256),                    Inception(256, 64, (64, 128), (16, 32), 32),                    paddle.nn.MaxPool2D(2, 2),                    simam_module(256),                    Inception(256, 64, (64, 128), (16, 32), 32))        self.AvgPool2D=paddle.nn.AvgPool2D(2)        self.flatten=paddle.nn.Flatten()        self.b6 = paddle.nn.Linear(256, num_classes)    def forward(self, x):        x = self.b1(x)        x = self.b2(x)        x = self.b3(x)        x = self.b4(x)        x = self.b5(x)        x = self.AvgPool2D(x)        x = self.flatten(x)        x = self.b6(x)        return x
登录后复制In [7]
model = paddle.Model(TowerNet(3, config_parameters['class_dim']))model.summary((-1, 3, 256, 256))
登录后复制

④改进模型的训练和优化器的选择

In [8]
#优化器选择class SaveBestModel(paddle.callbacks.Callback):    def __init__(self, target=0.5, path='work/best_model', verbose=0):        self.target = target        self.epoch = None        self.path = path    def on_epoch_end(self, epoch, logs=None):        self.epoch = epoch    def on_eval_end(self, logs=None):        if logs.get('acc') > self.target:            self.target = logs.get('acc')            self.model.save(self.path)            print('best acc is {} at epoch {}'.format(self.target, self.epoch))callback_visualdl = paddle.callbacks.VisualDL(log_dir='work/CA_Inception_Net')callback_savebestmodel = SaveBestModel(target=0.5, path='work/best_model')callbacks = [callback_visualdl, callback_savebestmodel]base_lr = config_parameters['lr']epochs = config_parameters['epochs']def make_optimizer(parameters=None):    momentum = 0.9    learning_rate= paddle.optimizer.lr.CosineAnnealingDecay(learning_rate=base_lr, T_max=epochs, verbose=False)    weight_decay=paddle.regularizer.L2Decay(0.0002)    optimizer = paddle.optimizer.Momentum(        learning_rate=learning_rate,        momentum=momentum,        weight_decay=weight_decay,        parameters=parameters)    return optimizeroptimizer = make_optimizer(model.parameters())
登录后复制In [9]
model.prepare(optimizer,              paddle.nn.CrossEntropyLoss(),              paddle.metric.Accuracy())
登录后复制In [10]
model.fit(train_loader,          eval_loader,          epochs=100,          batch_size=1,           # 是否打乱样本集               callbacks=callbacks,           verbose=1)   # 日志展示格式
登录后复制

⑤模型训练效果展示

在增加了simam_module模块的注意力机制后,性能有了较大幅度的提升,模型也更鲁棒(蓝色曲线为添加SimAM注意力机制后)。

SimAM:无参数Attention!助力分类/检测/分割涨点! - 游乐网

⑥项目总结

1.受启发于人脑注意力机制,本文提出一种3D注意力模块并设计了一种能量函数用于计算注意力权值;2.该文献推导出了能量函数的解析解加速了注意力权值的计算并得到了一种轻量型注意力模块;3.将所提注意力嵌入到现有ConvNet中在不同任务上进行了灵活性与有效性的验证。 SimAM:无参数Attention!助力分类/检测/分割涨点! - 游乐网
来源:https://www.php.cn/faq/1413503.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

OpenClaw使用kimi web_search返回401问题
AI
OpenClaw使用kimi web_search返回401问题

1 故障现象:OpenClaw无法联网搜索的典型报错 许多开发者在配置OpenClaw AI助手的搜索功能时,常常会遭遇一个典型故障:日常对话交互完全正常,但一旦触发需要联网查询信息的指令,界面便会立刻弹出“抱歉,我目前无法使用网络搜索功能(需要配置 API 密钥)”或“HTTP 401: Inv

热心网友
04.05
1.4 万亿词元!阿里 Qwen3.6-Plus 刷新全球最大 AI 聚合平台 OpenRouter 日调用量纪录
AI
1.4 万亿词元!阿里 Qwen3.6-Plus 刷新全球最大 AI 聚合平台 OpenRouter 日调用量纪录

1 4 万亿词元!阿里 Qwen3 6-Plus 刷新全球最大 AI 聚合平台 OpenRouter 日调用量纪录 这事儿挺震撼的。就在4月4日,全球最大的AI模型聚合平台OpenRouter在其官方账号上公布了一个爆炸性数字:阿里刚刚发布的千问新模型Qwen3 6-Plus,上线仅仅一天,日调用量

热心网友
04.04
Solidus Ai Tech(AITECH)币是什么?怎么样?AITECH工作原理和代币经济学概述
web3.0
Solidus Ai Tech(AITECH)币是什么?怎么样?AITECH工作原理和代币经济学概述

Solidus AI 是什么 在AI与Web3加速融合的当下,一个名为Solidus AI的项目提出了自己的解决方案。它将自己定位为“Web3原生的AI HPC基础设施”,其蓝图相当清晰:以位于欧洲的环保高性能计算(HPC)数据中心为基石,向上构建一个计算与AI工具市场,并最终通过AITECH代币完

热心网友
04.03
Cardano(ADA)2026 年价格预测:Grok AI 分析与未来走势
web3.0
Cardano(ADA)2026 年价格预测:Grok AI 分析与未来走势

Cardano (ADA) 2026年价格预测:AI深度解析与增长路径 在瞬息万变的加密市场,人工智能分析正成为洞察未来趋势的关键工具。近期,由Grok AI模型发布的Cardano(ADA)2026年价格预测引发了广泛关注,其大胆展望ADA或有望触及两位数美元价格。这不仅彰显了AI数据分析的潜力,

热心网友
04.02
京东发起全民养虾计划 整合AI硬件与服务降低门槛
科技数码
京东发起全民养虾计划 整合AI硬件与服务降低门槛

京东“全民养虾计划”:开启AI助手体验新纪元 科技领域近期迎来一场别开生面的创新活动:京东正式推出“全民养虾计划”。表面看,它与美食相关,实际上是一场针对AI智能体技术普及的宏大实验。该计划通过“购买AI硬件、赠送专业安装服务与趣味小龙虾”的组合策略,为当前热门的开源AI智能体——OpenClaw,

热心网友
04.02

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

灰烬之国能联机吗灰烬之国多人联机功能与设置方法详解
游戏攻略
灰烬之国能联机吗灰烬之国多人联机功能与设置方法详解

《灰烬之国》详细评测:目前仅支持单人,深度构筑与流派搭配是核心玩法 近日正式上线的动作Roguelike《灰烬之国》,以其高速流畅的俯视角战斗和极具深度的Build构筑系统,迅速吸引了大量核心玩家的关注。然而,许多玩家在入手前最关心的问题是:这款游戏是否支持多人联机合作? 答案是明确的:目前不支持。

热心网友
04.06
魔兽世界中怎么发放装备
游戏攻略
魔兽世界中怎么发放装备

在《魔兽世界》中如何高效公平地分配装备?团队管理者必看指南 对于任何一支《魔兽世界》的团队来说,顺利推倒副本首领固然值得庆祝,但这仅仅完成了目标的一半。真正考验团队凝聚力与管理者智慧的,往往是BOSS倒下之后的关键环节——装备的分配。这件事如果处理得当,能极大提振团队士气,让团队无往不利;反之,处理

热心网友
04.06
《洛克王国世界》家园经验对照表
游戏攻略
《洛克王国世界》家园经验对照表

《洛克王国世界》家园经验对照表:不同植物的经验获取效率分析 在《洛克王国世界》的家园系统中,种植植物是获取经验值的一个稳定且重要的途径。然而,不同种类植物的经验产出效率、生长周期存在显著差异。为了帮助玩家优化家园种植策略,我们结合玩家实测数据整理了一份详细的经验对照表,助您精准选择高性价比植物,最大

热心网友
04.06
《洛克王国世界》自爆流游玩心得
游戏攻略
《洛克王国世界》自爆流游玩心得

《洛克王国世界》自爆流玩法深度解析:刷钱效率与实战策略 在《洛克王国世界》多样化的战术体系中,自爆流凭借其高强度的刷钱效率与独特的对战风格,成为一种备受关注的玩法。许多玩家都对它的具体操作与实战技巧充满好奇。本文将结合核心实战经验,为你系统剖析自爆流的操作思路、阵容配置要点及关键注意事项,助你快速上

热心网友
04.06
《红色沙漠》嘟嘟鸟强化铁锅图纸获取攻略-势力任务与净化流程详解
游戏攻略
《红色沙漠》嘟嘟鸟强化铁锅图纸获取攻略-势力任务与净化流程详解

速览 本文为您带来《红色沙漠》中关键装备——嘟嘟鸟强化铁锅制作图纸的详细获取指南。获取流程的核心在于完成势力任务“智慧女巫”,并彻底净化“免罪圣所”。您需要清理区域内的所有敌人、击败最终守关BOSS,并成功解开一个关于核心的机关谜题,图纸即可入手。以下是分步详解。 红色沙漠嘟嘟鸟强化铁锅制作图纸完整

热心网友
04.06