Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation論文解讀

CVPR 2020|中科院VIPL實驗室
1.要解決的問題:
基於類別標籤的弱監督語義分割是一個具有挑戰性的問題,類別響應圖(class activation map,簡稱CAM)始終是這一領域的基礎方法。但是由於強監督與弱監督信號之間存在差異,由類別標籤生成的CAM無法很好地貼合物體邊界,因爲在data/label同時做數據增強時,不同的rescale 後,弱監督的分割中可能會丟失一些信息,CAM會受到較大影響。
 (CAM: 類別響應圖,根據圖像中的不同類別,來爲圖像中的不同物體打分,一般是前景圖高分,後景圖低分,以此來生成的熱力圖
 
2.貢獻:
1.提出self-supervised equivariant attention mechanism (SEAM)模型,結合pixel correlation module(PCM) ,減少了全監督與弱監督的gap.
2.利用(ECR)loss 優化了孿生網絡(兩個相同網絡共享權重)
3.在主流數據集PASCAL VOC 2012刷到了 state-of-the-art performance 
 
 
3.解決方法:
PCM結構:
 
 
CAM 模塊是kaiming 的Non-local 變體,這裏的PCM是CAM的一個變體,去掉了殘差連接,也去掉了g,ϕ,這裏只使用了2個conv, 可以降低參數,意在防止過擬合。但仍保持和原始CAM相同的激活強度,使用ReLU和L1正則化去標記不相關的像素值,並且產生一個包含像素相關性的特徵圖。
PCM意在使得那些rescale後的圖像,在弱監督訓練時,仍能保證與原始圖像擁有同樣的信息(不會造成個別信息的丟失)。
 
SEAM結構:
 
孿生網絡共享權重,對輸入數據做不同的rescale,得到不同圖像,再輸入到網絡中。
對於不同 transform 的數據,同時輸入到孿生網絡中,得到 y0(original), yt(transformed),再做後續的Loss計算。
網絡的loss如下:
分類損失 Lcls, 使用了multi-label soft margin loss,Lcls是通過監督學習的方式來確定目標的位置。
通過一個全局平均池化層,生成向量Z0, Zt.  l 是圖像的類別標籤,這個分類的loss計算在這兩個分支上:
C類別數目, C-1是減去背景, lc 是第C個類別的label, z 是要預測的vector
 
The equivariant regularization (ER) loss:
 A(.)任何特殊的變換 scale, 
對網絡處理後的數據y0在做transformed操作,與yt做L1正則化,目的是爲了進一步縮小transformed後的數據與原始數據間的差異。
孿生網絡是一個 shared-weight siamese structure,輸出的兩個分支的特徵圖共同保證CAM的一致性
equivariant cross regularization (ECR) loss:
一開始輸入 y0, yt, 但訓練很快陷入到局部最優,容易導致多數的像素點都只變爲一類,所以最後設置成四個都輸入,達到相互制約的目的。
 
4.實驗:
在 PASCAL VOC 2012 dataset with 21 class annotations,20 foreground ob- jects and the background
1464 training
1449 validation
1456 testing
 
使用SBG(Semantic contours from inverse detectors)的annotations 增強數據到10582
實驗結果:
 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章