ACNet_ Adaptive Context Network for Scene Parsing

0. 寫作目的

    好記性不如爛筆頭。

1.  主要思想

    在feature 中對於全局上下文和局部上下文引入不同的權重。

(個人感覺思想上,cvpr2020 中的 CPNet 引入同類和非同類的權重更好一些)

2. 模型的框架

    

GCM 和  LCM:

2.1 GCM 的細節

     主要思想是:計算全局特徵p, [C, 1, 1],然後對於特徵A 中的每一個位置計算距離,距離使用L2範式。依據最小的距離,和超參數derta,以及exp函數來構建特徵A 中與全局信息最相近的global gate coefficient,即與全局信息越相近,則global gate coefficient的值越接近1。然後將該值與全局信息p相乘,同時加入一個因子a,將結果與特徵A 中的每一個位置相加。(這裏相加而不是concat,作者說是爲了節省內存)

 

   

2.2 LCM的細節

   思想也是使用local gate coefficient與特徵相乘。這裏local gate coefficient是從 global gate coefficient 進行求反轉得到的,即 1 - global。由於local gate 的分辨率大於global gate的分辨率,因此先對global gate使用線性上採樣。 同時,作者通過實驗發現,多次引入 local gate更有效,實驗中使用的是三次,這裏對於特徵的融合使用的是concat,作者在引入local特徵前先對特徵降通道。

 

3. 實驗結果

   實驗細節: 作者也使用了輔助loss, backbone使用的是基於Dilated conv的 ResNet。 在測試時,使用了 multi-scale。

3.1 GCM 的實驗,也實驗了GCM中超參數derta

3.2 LCM的實驗, 選擇引入local gate coefficient的次數

3.3  ACB 引入的次數,因此融入其他測試策略的結果

3.4 與其他paper對比

 

There may be some mistakes in this blog. So, any suggestions and comments are welcome!

注: 文中圖片來源於paper。

[Reference]

   ICCV2019 paper: https://arxiv.org/abs/1911.01664

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章