【文章閱讀】The Devil is in the Decoder【計算機視覺中的上採樣方式-6種】

原創

Hi_AI

2020-06-23 12:30

一、這是google的一篇探索的文章，探討decoder結構的一篇文章

二、主要貢獻點

1、探討了不同的幾種decoder的優劣，提出自己的上採樣方案

2、提出針對上採樣的residual connection

3、橫向多任務對比各種不同方案

三、不同結構decoder的對比

Transposed Convolution：這個也是我們常說的“反捲積” “上採樣卷積”，但是要注意這並不是卷積的“反操作”，而是一種類似普通上採樣的操作。具體過程分爲兩步：1、根據放大倍數，填0；2、普通卷積操作。下面這張圖非常清晰的顯示了，整個過程，3x3的反捲積，總體stride=2.從結構上談這個模塊的缺點的話，我認爲主要是輸出map的每個pixel的來源不平衡，有的來源2個，有的4個，有的只有1個。3x3的卷積核能否應對h，w較大時，產生一個較好的soomth係數，對於feature map的每個區域都適用？

Decomposed Transposed Convolution：這個如果熟悉inception的人，其實很好理解，把3x3的卷積拆成1x3，和3x1，這樣參數就少了，那麼整個操作流程就是：先豎着填0，卷積，橫着填0，卷積。這是第一種的嚴格子集。

Separable Transposed Convolution : 這個就是分離卷積，先通道，在1x1，依然是減少參數。這是第一種的嚴格子集。

Depth To Space ：可以搜下pixel shuffle，基本上就是這個意思。這個會帶入“對齊問題”，因爲同一組feature maps，雖然不同通道，但是計算來源都是一樣的。The drawback of this approach is that it introduces alignment artifacts.爲什麼呢？我沒辦法給出一個理論上的解釋。有沒有人解釋下？

Bilinear Upsampling ：增加顯存的同時，後續的卷積也會需要更多的操作。

Bilinear additive upsampling ：借鑑 “depth to space”，不同的在於，上採樣後，這裏直接用加法了，輸出的feature map，可以發現，每個pixel來源都是平衡的。

四、上採樣residual

用作者的Bilinear additive upsampling + conv（通道增加4倍）輸出的爲X',在把原始輸入經過普通的bilinear upsample得到 X'',加起來就是了。

下面這個圖的skip，就是我們Unet常用的那種線，這也基本上證明了，這個skip是有效的，但是作用不是特別大。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【文章閱讀】The Devil is in the Decoder【計算機視覺中的上採樣方式-6種】

《日本蠟燭圖》讀書筆記 & 技術分析回測

《期貨-市場技術分析》讀書筆記

Python多線程編程深度探索：從入門到實戰

mongodb處理json數據很好

頂級 Javaer 都在用的 20 個類庫，真香！

[轉帖]cpupower

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

【文章閱讀】The Devil is in the Decoder【計算機視覺中的上採樣方式-6種】

【姿態估計文章閱讀】Structured Feature Learning for Pose Estimation

【姿態估計文章閱讀】Human Pose Estimation with Iterative Error Feedback【這篇文章看的雖然有點迷糊，但是最後有一點很重要，自適應scale】

【姿態估計文章閱讀】PifPaf: Composite Fields for Human Pose Estimation

【文章解讀】FreeAnchor: Learning to Match Anchors for Visual Object Detection

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結