論文閱讀筆記《PANet: Few-Shot Image Semantic Segmentation with Prototype Alignment》

核心思想

  本文提出一種基於原型網絡的小樣本語義分割算法(PANet)。該算法沿用了原型網絡(Prototypical Network)中距離度量的思想,首先利用特徵提取網絡提取支持集和查詢集圖像的特徵圖,然後利用二元的分割圖像對支持集圖像做掩碼操作,並計算得到每個類別對應的原型向量。接着計算查詢集特徵圖中的每個像素與原型向量之間的距離,並利用softmax函數轉化爲概率。最後選擇概率值最大的作爲該像素點對應的類別。整個網絡的結構如下圖所示
在這裏插入圖片描述
  首先,支持集圖像和查詢集圖像分別經過兩個共享權重的特徵提取網絡,得到對應的特徵圖。然後,本文采用了後混合掩碼(late fusion mask)的方式,也就是先提取特徵圖,再對特徵圖進行掩碼(相對的先掩碼(early fusion mask)就是先對輸入圖像進行掩碼操作,然後再提取特徵圖)。得到掩碼後的特徵圖,通過平均池化的方式計算得到每個類別對應的原型向量,計算過程如下
在這裏插入圖片描述
式中pcp_c表示類別cc對應的原型向量,KK表示每個類別中樣本的數量,(x,y)(x,y)表示空間中的位置座標,Fc,k(x,y)F_{c,k}^{(x,y)}表示cc類物體的第kk個樣本圖片,在(x,y)(x,y)處的特徵值,Mc,k(x,y)M_{c,k}^{(x,y)}表示cc類物體的第kk個樣本圖片,在(x,y)(x,y)處的類別掩碼值。得到類別原型向量後,計算查詢集特徵圖中的每個位置對應的特徵向量與各個類別原型向量之間的距離,並利用softmax函數轉化爲概率值,計算過程如下
在這裏插入圖片描述
M~q;j(x,y)\tilde{M} _{q;j}^{(x,y)}表示查詢集圖像在座標(x,y)(x,y)處的像素屬於類別jj的預測概率值;dd表示距離度量函數,在原型網絡中採用的是平方歐氏距離,而本文經過實驗表明採用經過放縮的餘弦距離度量函數,訓練過程更加穩定;α\alpha表示放縮係數。最後取每個像素點上概率值最大的類別,作爲預測結果,計算過程如下
在這裏插入圖片描述
  此時網絡還沒有結束,作者又提出了一種稱之爲原型對齊正則化(Prototype alignment regularization ,PAR)的方法對結果進行優化。這個過程也非常簡單,就是將查詢集圖像和支持集圖像呼喚,因爲在前面的計算過程中,我們已經得到了查詢集圖像對應的掩碼圖,因此我們就利用其作爲支持集,反過來去預測原支持集圖像對應的掩碼圖,並與真實值相比較計算損失。這一方法能夠從支持集中獲取更多的信息,但該過程僅在訓練中使用,測試中不使用。

實現過程

網絡結構

  特徵提取網絡採用VGG-16中的卷積層部分,並且將第四個卷積層對應的最大池化層步長改爲1,以保持空間尺寸;此外還將第五個卷積層改爲擴張率爲2的空洞卷積,以增大感受野範圍。其他部分均採用無參數的模型。

損失函數

  損失函數包含兩個部分,一個就是正向的預測損失Lseg\mathcal{L}_{seg},另一個是PAR操作引入的正則化損失LPAR\mathcal{L}_{PAR},計算過程如下
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

創新點

  • 採用基於原型網絡的結構實現了小樣本語義分割任務
  • 設計了PAR方法,充分利用支持集圖像信息,提高分割的準確性

算法評價

  本文在很大程度上沿用了原型網絡的思想,只不過將對一個圖片的類別預測,改爲了對每個像素的類別進行預測,設計的PAR方法非常有趣,有點類似於立體匹配中的左右一致性檢測,由查詢集的結果返回去預測支持集的結果,二者可以相互印證,的確是很有創新性的想法。本文還有一個進步,就是支持集中可以包含多個類別的圖像,然後可以實現對查詢集圖像中多個類別物體的分割。我對本文存在的一點疑惑就是關於計算時間的問題,因爲對每個像素都計算距離,並預測類別計算量可能會比較大,作者在文中並沒有提及如何解決計算複雜度的問題。

如果大家對於深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公衆號“深視”。在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章