Residual Attention Network for Image Classification

這是一種將Attention和深層的ResNet思想結合的網絡設計。利用Attention加強選擇焦點、不同特徵表徵的能力，嵌入到已有的ResNet網絡中去，在cifar-10/100和ImageNet上都取得了不錯的效果。

RAN網絡由一系列Attention模塊構成，每一個模塊有一個mask分支和一個trunk分支，後者就是正常地計算特徵圖，而前者則爲每一個特徵乘上了一個掩模。文中表示這是爲了防止錯誤的梯度反傳帶來影響，但是結合後文我覺得作爲一個始終比1大的掩模這麼說是有點迷惑的。
$H_{i,c}(x)=M_{i,c}(x)*T_{i,c}(x)$
考慮到乘以一個0~1之間的掩模會降低特徵的值，而堆疊得多了說不定就性能反而下降了。因此，在旁邊加一個殘差通道能較好地解決問題。這樣mask分支就起到一個增量式的效果。
$H_{i,c}(x)=(1+M_{i,c}(x))*T_{i,c}(x)$
對於mask分支的結構作者用了下采樣-上採樣的結構更好地收集全局的信息，也分析了空間attention或者通道attention的區別。這篇文章在實驗安排上是把這些模塊的消融實驗做得挺充分的。不過核心思想還是attention+resnet加起來吧。

Res2Net: A New Multi-scale Backbone Architecture

文章指出：多尺度的特徵對於計算機視覺任務來說是十分重要的，當然文中所指的多尺度不是指有多個特徵，而是在同一張特徵圖裏面融合了不同大小感受野的特徵。最傳統的思路是多個不同層/支路代表不同的尺度特徵，這篇文章採用了一個更加細粒度的多尺度整合方案，使得一層的輸出同時融合了多個不同尺度的信息。

這樣做的好處是什麼呢？ 我認爲有兩個好處，第一是他的整體架構是和ResNet或ResNeXt差不多的，計算量並不會增大，其實就是把中間的正常卷積變成了group卷積，然後再加上幾個特徵圖相加的操作。但是，由於每一個group操作時所經過的最層數一直在變化，輸出的特徵有淺有深，某種程度上實現了不同深度的信息整合，也在一定意義上加深了網絡的深度。最後，整體框架不受影響，因此很容易和ResNet、ResNext等等結合在一起。

ResNeSt: Split-Attention Networks

這篇文章也是對於ResNet的修改，他的主要思想是不同通道間的特徵融合attention，說白了其實是多走幾條不同的支路，每條支路分別計算結果，然後按某種方式把這些支路的結果加權求和——這就是文章提出的Split-Attention模塊。
文章的起點是：ResNet也許不是檢測等應用的最佳結構的理由，可能是因爲有限的感受野、跨通道信息交互的缺乏，而本論文針對的就是第二點。在ResNeXt的分組基礎上，每一小組裏面設置多份輸出，並加權求和成該組的真實輸出。權值的是r個輸出求和之後做全局池化得到channel-wise的統計量，再將這個向量送到r個全連續網絡裏面得到每個split對每個通道的貢獻。

另外一種等價的結構如下圖，這種結構可以方便地通過group卷積進行實現。中間那個 $c'/k/r$ 應該是專門用來保證整個模塊的計算量與 $r$ 無關的。

論文的實驗裏面用了很多訓練的技巧，比如label-smooth, auto-augmentation, mix training等等。
然後知乎上對於這篇論文的爭論還挺多的，先碼在這裏，回頭看。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

論文閱讀筆記20.05-第三週：ResNet的多種變種

Reading 20.05 Week 3

Residual Attention Network for Image Classification

Res2Net: A New Multi-scale Backbone Architecture

ResNeSt: Split-Attention Networks

lightdb hash index的性能和限制

論文閱讀20.06-第二週

論文閱讀20.05-第四周

論文閱讀筆記20.05-第三週：ResNet的多種變種

論文閱讀筆記20.05-第二週

圖像處理與分析

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結