論文閱讀筆記20.05-第三週:ResNet的多種變種

Residual Attention Network for Image Classification

這是一種將Attention和深層的ResNet思想結合的網絡設計。利用Attention加強選擇焦點、不同特徵表徵的能力,嵌入到已有的ResNet網絡中去,在cifar-10/100和ImageNet上都取得了不錯的效果。

RAN網絡由一系列Attention模塊構成,每一個模塊有一個mask分支和一個trunk分支,後者就是正常地計算特徵圖,而前者則爲每一個特徵乘上了一個掩模。文中表示這是爲了防止錯誤的梯度反傳帶來影響,但是結合後文我覺得作爲一個始終比1大的掩模這麼說是有點迷惑的。
Hi,c(x)=Mi,c(x)Ti,c(x)H_{i,c}(x)=M_{i,c}(x)*T_{i,c}(x)
考慮到乘以一個0~1之間的掩模會降低特徵的值,而堆疊得多了說不定就性能反而下降了。因此,在旁邊加一個殘差通道能較好地解決問題。這樣mask分支就起到一個增量式的效果。
Hi,c(x)=(1+Mi,c(x))Ti,c(x)H_{i,c}(x)=(1+M_{i,c}(x))*T_{i,c}(x)
對於mask分支的結構作者用了下采樣-上採樣的結構更好地收集全局的信息,也分析了空間attention或者通道attention的區別。這篇文章在實驗安排上是把這些模塊的消融實驗做得挺充分的。不過核心思想還是attention+resnet加起來吧。

Res2Net: A New Multi-scale Backbone Architecture

文章指出:多尺度的特徵對於計算機視覺任務來說是十分重要的,當然文中所指的多尺度不是指有多個特徵,而是在同一張特徵圖裏面融合了不同大小感受野的特徵。最傳統的思路是多個不同層/支路代表不同的尺度特徵,這篇文章採用了一個更加細粒度的多尺度整合方案,使得一層的輸出同時融合了多個不同尺度的信息。
Res2Net結構
這樣做的好處是什麼呢? 我認爲有兩個好處,第一是他的整體架構是和ResNet或ResNeXt差不多的,計算量並不會增大,其實就是把中間的正常卷積變成了group卷積,然後再加上幾個特徵圖相加的操作。但是,由於每一個group操作時所經過的最層數一直在變化,輸出的特徵有淺有深,某種程度上實現了不同深度的信息整合,也在一定意義上加深了網絡的深度。最後,整體框架不受影響,因此很容易和ResNet、ResNext等等結合在一起。

ResNeSt: Split-Attention Networks

這篇文章也是對於ResNet的修改,他的主要思想是不同通道間的特徵融合attention,說白了其實是多走幾條不同的支路,每條支路分別計算結果,然後按某種方式把這些支路的結果加權求和——這就是文章提出的Split-Attention模塊。
文章的起點是:ResNet也許不是檢測等應用的最佳結構的理由,可能是因爲有限的感受野、跨通道信息交互的缺乏,而本論文針對的就是第二點。在ResNeXt的分組基礎上,每一小組裏面設置多份輸出,並加權求和成該組的真實輸出。權值的是r個輸出求和之後做全局池化得到channel-wise的統計量,再將這個向量送到r個全連續網絡裏面得到每個split對每個通道的貢獻。
ResNeSt
另外一種等價的結構如下圖,這種結構可以方便地通過group卷積進行實現。中間那個c/k/rc'/k/r應該是專門用來保證整個模塊的計算量與rr無關的。
在這裏插入圖片描述
論文的實驗裏面用了很多訓練的技巧,比如label-smooth, auto-augmentation, mix training等等。
然後知乎上對於這篇論文的爭論還挺多的,先碼在這裏,回頭看。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章