[Paper Reading] Attention to Scale: Scale-aware Semantic Image Segmentation

Motivation:

Multi-scale features對性能的提升是非常大的。做Multi-scale一般是兩個思路:skip-netshare-net

skip-net的思路是將各個中間層的特徵都結合進來,不同層帶來的特徵用來做多尺度

share-net的思路就比較簡單粗暴,不同尺度的圖片都輸入到網絡進去,再將得到的特徵結合起來

那麼,就涉及到一個問題了,怎麼結合?

Solution:

直觀的,有Max-poolingAverage-pooling。這裏,作者提出了一個加權和,也就是:


其中,w是權重,f是不同尺度的特徵,g是結合後的結果。而Max-pooling和Average-pooling是這個公式的兩種特殊情況。

看到這個公式我的第一反應是,用一個卷積來訓練w?

當然作者想的比較多,採用了一種data-driven的方法,通過一個attention model來訓練這裏的權重。

所以簡單來說,這篇文章做的事情只是把多尺度特徵用加權組合起來而已

Attention Model:

注意力模型模擬的是我們看一張圖片,會把注意力放在哪塊區域。這裏,作者認爲,不同尺寸的圖片,我們會把注意力放在不同的地方

比如,比較小的圖片,我們就會把注意力放在較大的區域(這個是有道理的)。比較大的圖片,我們會把注意力放在比較小的東西(這個我就不敢苟同了)。

在實現上,他的attention model是一個兩層卷積結構,第一個卷積層有512個3*3的卷積核,第二個卷積層有S個1*1的卷積核(S是尺度數,也就是不同尺寸輸入圖片數)。

Network Architecture:


不看虛線框起來的attention model,其實就是用 FCN 提取兩個不同Size圖片的特徵,然後結合起來。

細分下去:


FCN 的fc7形成分支。一方面,傳給fc8作爲score map ,另一方面,傳輸給這個attention model(也就是我們剛纔說的兩層卷積結構),

來得到weight map,再對這兩個weight map做一個softmax得到weight


h是weight map

然後再如前面所說,加權和一下,就得到最後我們想要的包含多尺度信息的特徵了

這裏,文章中雖然沒說,但我覺得傳入attention model前,兩個fc7應該要resize到相同尺寸

Experiment:

作者做了三個尺度,原尺寸,0.75和0.5,。0.25因爲效果太差放棄了。


第二行是max-pooling得到的weight map,第三行是他的attention model學出來的weight map,確實不同尺度關注的東西不大一樣,scale最小的關注的就是比較大的比如背景







發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章