深度學習論文: Strip Pooling: Rethinking Spatial Pooling for Scene Parsing及其PyTorch實現

Strip Pooling: Rethinking Spatial Pooling for Scene Parsing
PDF:https://arxiv.org/pdf/2003.13328v1.pdf
PyTorch: https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

Spatial pooling在捕獲像素級預測任務(如場景解析)的long-range contextual信息方面已被證明是非常有效的。本文在傳統的N×N型Spatial pooling的基礎上,提出了一種考慮狹長核(1×N或N×1)的strip pooling策略.
在這裏插入圖片描述

2 Methodology

2-1 Strip Pooling Module

a. 如下圖所示,使用Hx1和1xW尺寸的條狀池化核進行操作,對池化核內的元素值求平均,並以該值作爲池化輸出值。
b. Hx1和1xW池化核處理後,使用1D Conv對兩個輸出feature map分別沿着左右和上下進行擴容,如下圖所示,擴容後兩個feature map尺寸相同,進行fusion(element-wise上的add)。
c. 採用element-wise multiplication的方式對原始數據和sigmoid處理後的結果進行處理,至此,strip pooling完成,輸出結果。

在這裏插入圖片描述


2-2 Mixed Pooling Module

融合池模塊將條紋池化和空間池化的結果串聯起來作爲輸出,本模塊前後同樣也都有一個1x1的卷積核用來改變通道數量。圖(a)適用於識別短距離依賴,圖(b)適用於長距離依賴,將兩者結合起來識別效果更好。(1)和(2)中除了子模塊前後改變通道數目的1×1卷積核之外,其它都爲3x3。
在這裏插入圖片描述


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章