論文閱讀筆記《Conditional networks for few-shot semantic segmentation》

核心思想

  本文提出一種可以利用稀疏標籤實現小樣本語義分割任務的算法(co-FCN)。整個網絡的結構與上篇文章《One-Shot Learning for Semantic Segmentation》提出的雙分支網絡非常相似,同樣時包含條件分支和分割分支,條件分支用於處理支持集圖像,分割分支用於處理查詢集圖像,最後再將二者融合起來。網絡結構如下圖所示
在這裏插入圖片描述
  支持集圖片是由原圖和標籤組成的,標籤可以分爲稠密標籤和稀疏標籤兩種形式,稠密標籤就是目標物體的二元掩碼圖像(目標物體所在位置像素值爲1,其他位置像素值爲0),稀疏標籤則是如圖中所示,只給出圖中少量像素點的標籤值(正值表示屬於目標物體,負值表示不屬於目標物體)。將原圖與標籤圖輸入到VGG-16網絡(僅保留卷積層部分)中得到對應的特徵圖,再將特徵圖經過全局池化操作得到對應的一維特徵向量,並且通過複製和拼接的方式恢復原特徵圖尺寸(形狀和尺寸與VGG-16輸出的特徵圖相同,但是每幅特徵圖中每個位置上的特徵值都是相同的,即爲全局平均池化的結果)。另一方面查詢集圖片經過相同結構的VGG-16網絡得到對應的特徵圖,將其與條件通道輸出的特徵圖級聯起來經過一個卷積神經網絡後輸出對應的二元掩碼圖。
  文中提到除了上文介紹的融合方式之外,本文還試驗了另一種融合方式,即讓條件分支輸出最後一個分類層的權重參數,這一方式作者並沒有詳細介紹,我猜測是與《One-Shot Learning for Semantic Segmentation》採用類似的方式,利用全連接層將支持集網圖片對應的特徵圖轉化爲特徵向量,然後以此作爲權重ww和偏置bb,對查詢集輸出的特徵圖做1 * 1的卷積操作,最後通過Sigmoid函數輸出預測的二元掩碼圖。
  正對k-shot情況,本文並沒有採用邏輯或的操作,而是將多個樣本圖片輸出的特徵圖進行取平均的操作,作爲條件分支的輸出結果,再與分割分支進行結合。

實現過程

網絡結構

  條件分支和分割分支均採用VGG-16的卷積層部分。

損失函數

  交叉熵損失函數

創新點

  • 本文提出一種能夠利用稀疏標籤實現小樣本語義分割的方法
  • 採用兩種方式融合條件分支與分割分支的結果

算法評價

  本文是在《One-Shot Learning for Semantic Segmentation》做了一些改進,首先在結合方式上,先將原特徵圖池化爲一個特徵值,然後再複製拼接恢復尺寸,再與查詢集特徵圖級聯,最後卷積+上採樣輸出預測結果;其次是在處理多樣本的問題上,由多個結果取邏輯或操作,改爲了先對多個樣本的特徵圖取平均值,然後再融合的方式。本文的方法在稠密標籤的條件下,效果是弱於《One-Shot Learning for Semantic Segmentation》的,但在稀疏標籤的情況下,效果要優於前文,甚至在只提供一個正像素和一個負像素的極端條件下仍能實現分割任務。本文可能是我讀過的最短的文章,加上參考文獻一共四頁,核心內容只有幾段話,這難道就是大佬的力量嗎?

如果大家對於深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公衆號“深視”。在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章