[Paper Reading] Attention to Scale: Scale-aware Semantic Image Segmentation

Motivation:

Multi-scale features對性能的提升是非常大的。做Multi-scale一般是兩個思路：skip-net和share-net

skip-net的思路是將各個中間層的特徵都結合進來，不同層帶來的特徵用來做多尺度

share-net的思路就比較簡單粗暴，不同尺度的圖片都輸入到網絡進去，再將得到的特徵結合起來

那麼，就涉及到一個問題了，怎麼結合？

Solution：

直觀的，有Max-pooling和Average-pooling。這裏，作者提出了一個加權和，也就是：

其中，w是權重，f是不同尺度的特徵，g是結合後的結果。而Max-pooling和Average-pooling是這個公式的兩種特殊情況。

看到這個公式我的第一反應是，用一個卷積來訓練w？

當然作者想的比較多，採用了一種data-driven的方法，通過一個attention model來訓練這裏的權重。

所以簡單來說，這篇文章做的事情只是把多尺度特徵用加權組合起來而已

Attention Model：

注意力模型模擬的是我們看一張圖片，會把注意力放在哪塊區域。這裏，作者認爲，不同尺寸的圖片，我們會把注意力放在不同的地方

比如，比較小的圖片，我們就會把注意力放在較大的區域（這個是有道理的）。比較大的圖片，我們會把注意力放在比較小的東西（這個我就不敢苟同了）。

在實現上，他的attention model是一個兩層卷積結構，第一個卷積層有512個3*3的卷積核，第二個卷積層有S個1*1的卷積核（S是尺度數，也就是不同尺寸輸入圖片數）。

Network Architecture：

不看虛線框起來的attention model，其實就是用 FCN 提取兩個不同Size圖片的特徵，然後結合起來。

細分下去：

FCN 的fc7形成分支。一方面，傳給fc8作爲score map ，另一方面，傳輸給這個attention model（也就是我們剛纔說的兩層卷積結構），

來得到weight map，再對這兩個weight map做一個softmax得到weight

h是weight map

然後再如前面所說，加權和一下，就得到最後我們想要的包含多尺度信息的特徵了

這裏，文章中雖然沒說，但我覺得傳入attention model前，兩個fc7應該要resize到相同尺寸

Experiment：

作者做了三個尺度，原尺寸，0.75和0.5,。0.25因爲效果太差放棄了。

第二行是max-pooling得到的weight map，第三行是他的attention model學出來的weight map，確實不同尺度關注的東西不大一樣，scale最小的關注的就是比較大的比如背景