本篇主要介紹ResNeSt,其他相關係列及其變體見如下blog目錄
ResNeSt: Split-Attention Networks
enables attention across feature-map groups,提出Split-Attention模塊。
背景知識
基於Multi-path and Feature-map Attention。
- GoogleNet中提出Multi-path,其中每個網絡塊由不同的卷積內核組成。
- ResNeXt在中採用group convolution,具體見我的另一篇blog:ResNet系列及其變體(四)—ResNeXt
- SE-Net 提出 channel-attention 來重新調整通道響應。具體見我的另一篇blog:SENet網絡結構概要解讀
- SK-Net 引入 feature-map attention acrosss two network branches.具體見我的另一篇blog:SKNet網絡結構概要解讀
SE-Net、SK-Net和 論文提出的ResNeSt block結構圖如下 :
Split-Attention Block
Feature-map Group
feature map被分爲多個group,每個group又進行分組。
超參數K:表示group數目( cardinality hyperparameter)
超參數R:表示基數組內的split數(radix hyperparameter)
總feature map的group數
對每一個group,transformations ,
Split Attention in Cardinal Groups
-
其中,,for
-
Global pooling.
-
r-Softmax
- 融合
- 等價轉換
網絡調整
訓練策略
- Large Mini-batch
- Label Smoothing
- 學習率根據餘弦調整
- Auto Augmentation
- Mixup Training
- Large Crop Size:256
- Regularization :dropout/DropBlock/L2 regularization