CBAM: Convolutional Block Attention Module—— channel attention + spatial attention

原創

yzy__zju

2019-07-31 20:21

影響卷積神經網絡的幾大因素：

Depth: VGG, ResNet
Width: GoogLeNet
Cardinality: Xception, ResNeXt
Attention：channel attention, spatial attention

Attention在人類感知系統中扮演了重要角色，人類視覺系統的一大重要性質是人類並不是試圖一次處理完整個場景，與此相反，爲了更好地捕捉視覺結構，人類利用一系列的局部瞥見，選擇性地聚焦於突出的部分。

CBAM其實就是順序進行channel attention和spatial attention：

Channel attention: focus on what feature map is meaningful; 全連接層是使用卷積核=1的卷積實現的
Spatial attention：focus on where is an informative part；沿channel 軸的求均值操作

Attention和fature map是元素級別的相乘，相乘時會自動進行broadcast(copy)操作，即channel attention沿着spatial維度廣播，spatial attention沿着channel維度廣播

class ChannelAttention(nn.Module):
    def __init__(self, in_planes, ratio=16):
        super(ChannelAttention, self).__init__()
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        self.max_pool = nn.AdaptiveMaxPool2d(1)

        self.fc1   = nn.Conv2d(in_planes, in_planes // 16, 1, bias=False)
        self.relu1 = nn.ReLU()
        self.fc2   = nn.Conv2d(in_planes // 16, in_planes, 1, bias=False)

        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        avg_out = self.fc2(self.relu1(self.fc1(self.avg_pool(x))))
        max_out = self.fc2(self.relu1(self.fc1(self.max_pool(x))))
        out = avg_out + max_out
        return self.sigmoid(out)

class SpatialAttention(nn.Module):
    def __init__(self, kernel_size=7):
        super(SpatialAttention, self).__init__()

        assert kernel_size in (3, 7), 'kernel size must be 3 or 7'
        padding = 3 if kernel_size == 7 else 1

        self.conv1 = nn.Conv2d(2, 1, kernel_size, padding=padding, bias=False)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        avg_out = torch.mean(x, dim=1, keepdim=True)
        max_out, _ = torch.max(x, dim=1, keepdim=True)
        x = torch.cat([avg_out, max_out], dim=1)
        x = self.conv1(x)
        return self.sigmoid(x)

參考代碼：https://github.com/luuuyi/CBAM.PyTorch/blob/master/model/resnet_cbam.py

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

CBAM: Convolutional Block Attention Module—— channel attention + spatial attention

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

形態學處理及opencv-python函數

leetcode300--最長上升子序列LIS

深度學習真實圖像去噪算法總結

kmeans及其python實現

0-1揹包詳細解析及python實現

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結