18-Weakly-Supervised-Semantic-Segmentation-by Iteratively-Mining-Common-Object-Features

when

  • CVPR 2018

who(影響了誰)

  • 圖像標籤監督下的弱監督語義分割是一項具有挑戰性的任務,因爲它直接將高級語義與低級別外觀相關聯。爲了彌合這一差距,在本文中,我們提出了一個迭代的自下而上和自上而下的框架,它可以擴展對象區域並優化分割網絡。

why(爲什麼提出)

  • 弱監督的語義分割非常具有挑戰性,因爲它直接將高級語義與低級別外觀相關聯。 由於只有圖像標籤可用,因此大多數先前的工作依賴於分類網絡來定位對象。 然而,雖然沒有像素方式的標註可用,但是分類網絡只能產生不準確和粗略的鑑別對象區域,這不能滿足逐像素語義分割的要求,從而損害了性能。
  • 爲了解決這個問題,在本文中,我們提出了一個迭代的自下而上和自上而下的框架,它通過挖掘公共對象特徵(MCOF)從初始定位到逐步擴展對象區域來容忍不準確的初始定位。
  • 動機,雖然分類網絡產生的初始定位是粗略的,但它給出了對象的某些鑑別區域,這些區域包含關於對象的重要知識,即共同的對象特徵。例如,如圖1(a)所示,一些圖像可以定位人的手,而其他圖像可以定位頭。

where(適用範圍,優點,缺點, 創新點,以前的方法)

優點:

  • 給定一組訓練圖像,我們可以從中學習共同的對象特徵來預測整個對象的區域。因此,在自下而上的步驟中,我們將初始對象定位作爲對象種子並從中挖掘共同對象特徵以擴展對象區域。然後在自上而下的步驟中,我們使用挖掘的對象區域作爲監督來訓練分割網絡以預測精細對象mask。預測的對象mask包含更多對象區域,這些區域更準確並提供更多對象的訓練樣本,因此我們可以進一步挖掘它們的共同對象特徵。並且迭代地進行上述過程以逐步產生精細對象區域並優化分割網絡。通過迭代,初始定位中的不準確區域被逐步校正,因此我們的方法是穩健的並且可以容忍不準確的初始定位。圖1(b)顯示了一些例子,其中初始定位非常粗糙和不準確,而我們的方法仍然可以產生令人滿意的結果。

img

圖1. (a) 提出的MCOF框架的圖示。 我們的框架迭代地挖掘共同的對象特徵並擴展對象區域。(b) 初始對象種子和我們挖掘的對象區域的示例。 我們的方法可以容忍不準確的初始定位併產生相當令人滿意的結果。

改進點

  • 我們首先訓練圖像分類網絡並使用分類激活圖(CAM)定位對象的判別區域。
  • 然後將圖像分割成超像素區域並使用CAM分配類標籤,這些區域稱爲初始對象種子。初始對象種子包含對象的某些關鍵部分,因此在自下而上的步驟中,我們從它們中挖掘共同對象特徵,然後展開對象區域。
  • 我們通過訓練區域分類網絡並使用訓練有素的網絡來預測對象區域來實現這一目標。
  • 雖然這些區域可能仍然只關注對象的關鍵部分區域,爲了補充非鑑別區域,提出了在貝葉斯框架下考慮擴展對象區域和顯着圖的顯着引導細化方法。然後在自上而下的步驟中,我們使用精化的對象區域作爲監督來訓練分割網絡以預測分割mask。
  • 通過上述過程,我們可以獲得包含更完整對象區域的分割mask,並且比初始對象種子更精確。我們進一步將分割mask作爲對象種子,並迭代地進行處理。通過迭代,所提出的MCOF框架逐步產生更準確的對象區域並增強分割網絡的性能。最終訓練的分割網絡用於預測。

創新點

  • 我們提出了一個迭代的自下而上和自上而下的框架,它通過迭代挖掘共同對象特徵來容忍不準確的初始定位,以逐步生成精確的對象mask並優化分割網絡。
  • 提出了顯着性引導細化方法來補充在初始定位中忽略的非鑑別區域。
  • PASCAL VOC 2012分割數據集的實驗表明,我們的方法優於以前的方法,並實現了最先進的性能。

以前的方法:

  • 全監督語義分割
    • 方法:全監督的方法獲得大量的逐像素標註,根據過程的模式,它們可以被分類爲基於區域和基於像素的網絡。基於區域的網絡將圖像作爲一組區域進行處理,並提取它們的特徵以預測其標籤。 Mostajabi等人提出了縮小特徵,它結合了局部,近處,遠處相鄰超像素和整個場景的特徵,對每個超像素進行分類。基於像素的網絡將整個圖像作爲輸入,並使用完全卷積層端到端地預測像素標籤。 Long等人[16]提出了完全卷積網絡(FCN)和跳躍架構來產生準確和詳細的語義分割。 Chen等人[2]提出了DeepLab,它引了“帶孔算法”,以較小的步幅擴大感受野,以產生更密集的分割。 基於FCN和DeepLab已經報告了大量的工作 [1, 18, 32]。基於像素的網絡已被證明比基於區域的網絡更強大,可用於語義分割。 但是,在本文中,我們採用了兩種網絡。 我們展示了基於區域的網絡在學習對象的共同特徵方面是強大的,因此可以產生精細的對象區域作爲訓練基於像素的網絡的監督。
    • 缺點:雖然全監督的方法需要大量的逐像素標註,這是非常昂貴的
  • 弱監督語義分割:
    • 方法:最近的進展利用了弱監督的語義分割,包括邊界框 [4, 19, 12],線 [15]和圖像級標籤 [21, 22, 25, 19, 31, 13, 23, 30]。在本文中,我們只關注最弱的監督,即圖像級監督。
      • 在圖像級弱監督語義分割中,由於只有圖像標籤可用,大多數方法都是基於分類方法,這些方法可以粗略地分爲兩類:基於MIL的方法,它直接用分類網絡預測分割mask;和基於定位的方法,利用分類網絡產生初始定位並使用它們來監督分割網絡。
      • 基於多實例學習(MIL)的方法 [21, 22, 13, 25, 5] 將弱監督學習形成爲MIL框架,其中已知每個圖像具有屬於某個類的至少一個像素,並且任務就是要找到這些像素。Pinheiro等人[22]提出了Log-Sum-Exp(LSE)將輸出特徵映射池化到圖像級標籤中,以便可以將端到端的網絡訓練爲分類任務。Kolesnikov等人[13]提出了全局加權池化(GWRP)方法,該方法爲最後一個池化層中的更有可能的位置提供更多權重。 然而,雖然基於MIL的方法可以定位鑑別對象區域,但是它們有粗略的對象邊界的問題,因此性能不令人滿意。
      • 基於定位的方法 [19, 31, 13, 23, 30]旨在從弱標籤生成初始對象定位,然後將其用作監督來訓練分割網絡。 Kolesnikov等人[13]使用分類網絡生成的定位線索作爲一種監督,他們還提出了分類損失和邊界感知損失來考慮類和邊界約束。 Wei等人[30]提出了用分類網絡逐步挖掘對象區域的對抗性擦除方法。雖然Wei等人[30]也旨在從最初的定位擴展對象區域。它們依賴於分類網絡來順序地產生擦除圖像中的最具鑑別力的區域。它將導致錯誤累積,並且挖掘的對象區域將具有粗略的對象邊界。所提出的MCOF方法挖掘來自粗略對象種子的共同對象特徵以預測更精細的分割mask,然後迭代地挖掘來自預測mask的特徵。我們的方法逐漸擴展對象區域並校正不準確的區域,這對於噪聲是魯棒的,因此可以容忍不準確的初始定位。利用超像素的優勢,挖掘的物體區域將具有清晰的邊界。

how

1. 提出的MCOF的架構

  • why:分類網絡只能產生粗略且不準確的鑑別對象定位,這遠遠不是像素方式語義分割的要求。 爲了解決這個問題,在本文中,我們認爲,儘管初始對象定位是粗略的,但它包含有關對象的重要特徵。 因此,我們提出從初始對象種子中挖掘出共同的對象特徵,逐步校正不準確的區域,並生成精細的對象區域以監督分割網絡。
  • how:如圖2所示,我們的框架包含兩個迭代步驟:自下而上步驟和自上而下步驟。
    • 自下而上的步驟挖掘來自對象種子的共同對象特徵以產生精細對象區域,並且自上而下的步驟使用所產生的對象區域來訓練弱監督的分割網絡。 預測的分割mask包含比初始更完整的對象區域。
    • 然後,我們將它們作爲對象種子來挖掘共同的對象特徵,並且迭代地進行處理以逐步地校正不準確的區域併產生精細的對象區域。

img

  • 注意,在第一次迭代中,初始對象種子僅包含鑑別區域,在挖掘共同對象特徵之後,仍然缺少一些非鑑別區域。 爲了解決這個問題,我們建議將顯着性圖與挖掘的對象區域結合起來。 在第一次迭代之後,分割的mask包含更多的對象區域並且更準確,而顯着性圖的精度也是有限的,因此在稍後的迭代中,顯着性映射將不再採用,這是爲了防止引入額外的噪聲。 整個過程總結爲算法1。

img

2. 挖掘共同對象特徵

從初始對象種子挖掘共同對象特徵
  • 爲了獲得初始對象定位,我們訓練分類網絡並使用CAM方法來生成每個對象的熱力圖。 如圖3所示,熱力圖非常粗糙,用於定位對象的鑑別區域,首先,我們使用基於圖的分割方法將圖像分割成超像素區域並對每個區域內的熱力圖進行平均。 我們觀察到CAM圖通常具有幾個中心區域,其中圍繞它們具有低置信區域,並且中心區域主要是對象的關鍵部分。 因此,對於每個熱力圖,我們選擇其局部最大區域作爲初始種子。 然而,這可能會錯過許多區域,因此也選擇熱圖大於閾值的區域作爲初始種子。 一些例子如圖3所示。

img

從初始對象種子挖掘共同對象特徵:
  • 初始對象種子太粗糙,無法滿足語義分割的要求,但是,它們包含對象的鑑別區域。 例如,如圖4所示,一個圖像可以定位一個人的手,而另一個圖像可以給出面部的位置。 我們認爲,同一類的區域具有一些共享屬性,即共同的對象特徵。 因此,給定一組具有種子區域的訓練圖像,我們可以從中學習共同的對象特徵並預測對象的整個區域,從而擴展對象區域並抑制噪聲區域。 我們通過使用對象種子作爲訓練數據訓練名爲RegionNet的區域分類網絡來實現這一目標。

1545722147934

1545722227253

顯着性引導的對象區域補充

  • 注意,RegionNet是從初始種子區域學習的,這些種子區域主要包含對象的關鍵區域。 使用RegionNet,可以擴展對象區域,同時仍然存在一些被忽略的區域。例如,初始種子區域主要集中在人的頭部和手部,而其他區域(例如身體)經常被忽略。 在通過RegionNet擴展後,身體的某些區域仍然缺失(圖4(b))
  • 爲了解決這個問題,我們提出通過合併具有單個對象類的圖像的顯着性圖來補充對象區域。請注意,我們不直接使用顯着性圖作爲初始定位,因爲在以前的研究中[31],因爲在某些情況下,顯着對象可能不是我們在語義分割中需要的對象類,並且顯着圖性本身也包含會影響定位精度的噪聲區域。 一些例子如圖5所示。

img

1545722375789

迭代學習框架

  • 精細化的對象區域爲我們提供了一些可靠的對象定位,我們可以將它們作爲監督來訓練弱監督的語義分割網絡。 雖然之前的研究依賴於定位線索和類標籤來設計和訓練分割網絡,但在我們的工作中,我們已經刪除了之前RegionNet中的錯誤類區域,因此精化對象區域不包含任何錯誤類。 因此我們只能使用定位線索作爲監督,這與全監督的框架完全兼容,因此我們可以從現有的全監督架構中受益。 在本文中,我們利用流行的DeepLab LargeFOV模型[2]作爲我們的分割網絡的基本網絡,名爲PixelNet。

1545722459181

img

why有效

漸進的共同對象特徵挖掘和網絡訓練框架

  • 爲了評估提出的漸進式共同對象特徵挖掘和網絡訓練框架的有效性,我們評估了每次迭代的RegionNet和PixelNet對訓練集和驗證集的影響。 在模塊研究中,我們使用VGG16作爲PixelNet的基礎網絡。 結果顯示在表3中。我們可以看到初始對象種子非常粗糙(在訓練集上爲14.27%mIoU),通過應用RegionNet來學習物體的共同特徵,通過引入顯着性,性能達到29.1% - 引導細化之後,達到34.8%,在使用PixelNet學習後,它達到了48.4%。 在後來的迭代中,性能逐漸提高,這表明我們的方法是有效的。

img

與直接迭代訓練的比較

  • 通過與直接迭代訓練方法的比較,我們廣泛地進行了實驗,以驗證所提出的漸進式共同對象特徵挖掘和網絡訓練框架的有效性。 對於直接迭代訓練方法,我們從第一次迭代的分割結果開始,然後在後來的迭代中,使用前一次迭代的分割mask來訓練分割網絡。
  • 圖8顯示了比較。 通過迭代,直接迭代方法的性能緩慢增加並且僅達到低精度,而在所提出的MCOF中,性能快速增加並且實現更高的準確度。 該結果表明我們的MCOF框架是有效的。 MCOF逐步挖掘來自先前對象mask的共同對象特徵,然後擴展更可靠的對象區域以優化語義分割網絡,因此精度可以快速增加到非常令人滿意的結果。

img

顯着性細化的有效性

  • 初始對象種子僅定位對象的鑑別區域,例如,人的頭部和手部,而其他區域(例如身體)經常被忽略。 爲了補充其他對象區域,將顯着性圖與初始對象種子合併。 這對於挖掘整個物體區域非常重要。 爲了評估有效性,我們在沒有顯着性引導細化的情況下對框架進行實驗,並比較每次迭代的PixelNet的性能。 結果顯示在表4中。如果沒有結合顯着性圖,一些對象區域將會丟失,因此性能將受到限制並且無法達到令人滿意的準確度。

img

表4. 評估顯着性引導細化的有效性。我們在Pascal VOC 2012驗證集上顯示每次迭代的PixelNet的mIoU。如果沒有顯着性引導的細化,性能將受到限制並且無法達到令人滿意的精度。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章