【文章閱讀】The Devil is in the Decoder【計算機視覺中的上採樣方式-6種】

一、這是google的一篇探索的文章,探討decoder結構的一篇文章

二、主要貢獻點

     1、 探討了不同的幾種decoder的優劣,提出自己的上採樣方案

     2、 提出針對上採樣的residual connection

     3、 橫向多任務對比各種不同方案

三、不同結構decoder的對比

Transposed Convolution:這個也是我們常說的“反捲積” “上採樣卷積”,但是要注意這並不是卷積的“反操作”,而是一種類似普通上採樣的操作。具體過程分爲兩步:1、根據放大倍數,填0;2、普通卷積操作。下面這張圖非常清晰的顯示了,整個過程,3x3的反捲積,總體stride=2.從結構上談這個模塊的缺點的話,我認爲主要是輸出map的每個pixel的來源不平衡,有的來源2個,有的4個,有的只有1個。3x3的卷積核能否應對h,w較大時,產生一個較好的soomth係數,對於feature map的每個區域都適用?

                                    

Decomposed Transposed Convolution:這個如果熟悉inception的人,其實很好理解,把3x3的卷積拆成1x3,和3x1,這樣參數就少了,那麼整個操作流程就是:先豎着填0,卷積,橫着填0,卷積。這是第一種的嚴格子集

                              

Separable Transposed Convolution : 這個就是分離卷積,先通道,在1x1,依然是減少參數。這是第一種的嚴格子集

Depth To Space :可以搜下pixel shuffle,基本上就是這個意思。這個會帶入“對齊問題”,因爲同一組feature maps,雖然不同通道,但是計算來源都是一樣的。The drawback of this approach is that it introduces alignment artifacts.爲什麼呢?我沒辦法給出一個理論上的解釋。有沒有人解釋下

                                 

Bilinear Upsampling :增加顯存的同時,後續的卷積也會需要更多的操作。

Bilinear additive upsampling :借鑑 “depth to space”,不同的在於,上採樣後,這裏直接用加法了,輸出的feature map,可以發現,每個pixel來源都是平衡的。

四、上採樣residual

     用作者的Bilinear additive upsampling + conv(通道增加4倍)輸出的爲X',在把原始輸入經過普通的bilinear upsample得到 X'',加起來就是了。

     下面這個圖的skip,就是我們Unet常用的那種線,這也基本上證明了,這個skip是有效的,但是作用不是特別大。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章