弱監督語義分割論文SEC詳解(2016-ECCV):Seed, Expand and Constrain

論文SEC-Seed, Expand and Constrain: Three Principlesfor Weakly-Supervised Image Segmentation

1、總體架構

論文主題:

這篇論文主要講了弱監督語義分割的一般方法,即三個基本的原則,Seed,Expand和Constrain。

其中,

  • seed: 即seed cues,一般使用CAM[1]方法對分割物體進行定位,首先找到物體的位置,要求定位準確,一般找到的位置十分小,不能直接當監督信息,需要根據seed對區域進行擴張
  • Expand:即在seed的基礎上擴張seed cues區域,使被標記爲object label的像素越來越多,可視化出來的物體區域越來越大,如果只有seed 和expand,那隨着網絡的訓練,masks區域會不斷增大,直至超過物體本身的大小,這樣的結果也不夠準確,所以,一般情況下,還會對物體的邊界進行約束,限制expand.
  • Constrain:限制分割的物體邊界,使其不會越界

2、架構構成

我們來看一下SEC:Seed, Expand and Constrain: Three Principlesfor Weakly-Supervised Image Segmentation具體是如何做的吧?

我們來看一下上面這篇文章的架構,我從論文中摳出來的圖,首先,我們可以看到架構中存在着三個損失函數(Seeding Loss、Expansion Loss、Constrain-to-boundary Loss)分別對應三個原則中的三個部分:

  • seed loss:圖片location cues上一個像素點被分類爲label c的可能性,損失函數優化目標是使得可能性p儘可能地大,保證網絡在cues下的正確性,根據cues來優化網絡。
  • expand loss:模型的主網絡爲分割網絡,輸入原始圖片,輸出N個feature maps, 每一個feature map上的值表示圖片該位置像素屬於第N類的可能性。 loss保證圖片上存在的類對應的feature map的值儘可能地大。這裏模型中使用分類來保證,作者提出GWRP方法融合feature map的值得到分類的scores,以保證scores的值儘可能地大來間接保證網絡分類準確性以及feature map定位爲存在的類的準確性。
  • constrain loss:限制expand的邊界,使其不過界,使用CRF方法,利用原圖片本身的顏色等信息,以及分割得到的mask進行邊界的約束。

3、三個Loss

1、Seeding Loss:

首先看一下Seeding Loss,從架構圖中可以看出,seeding loss上半個分支只有向前的箭頭(黑色)而沒有回傳的箭頭(灰色),這是爲何呢?

我們先了解一下,這個灰色箭頭表示的是什麼,這個表示回傳梯度,網絡訓練優化參數便是通過回傳梯度爲基礎進行的。這個分支沒有回傳箭頭,也就意味着它不參入網絡優化訓練,是一次性的過程,也就是圖片經過Weak Location生成seed cues,生成之後便作爲監督信息,放在那裏,方便以後使用,在網絡訓練過程中,即Seeding Loss 優化過程中seed cues也不再變化,後面的論文將其稱爲“靜態監督”,這是限制SEC性能進一步提高的一個重要因素,接下來的論文很多圍繞這個方面對SEC進行改進,從而獲得比較好的結果。

(1)Location cues:

前景seed cues:

  • 使用VGG預訓練的模型初始化,改最後兩個fc爲convs(1024,3*3),最後由GAP融合爲1024 --> 20,通過CAM取閾值爲20%生成前景類的cues;

背景seed cues:

  • 使用顯著性檢驗方法,選擇閾值爲10%得到背景類的cues,將不同類堆疊在同一個map中則生成seed cues;

優點:定位準確

缺點:seed cues小而稀疏,在網絡訓練後期,可能由於太小反而限制了網絡的進一步優化。

(2)公式:

解釋:

X-爲輸入圖片

T – 分類類別

Sc – 網絡根據CAM方法生成的c類feature map的seed cues區域

Fu,c(X) - u爲圖片中屬於Sc內的像素,c爲類別,Fu,c(X)爲網絡模型輸出的預測位置u屬於c類的概率值。

Lseed在優化過程中,目標使得Lseed的值儘可能小,即使得圖片中在對應着location cues區域Sc上一個像素點被分類爲label c的可能性儘可能地大,即可以保證seed cues在分割網絡中的正確性。

(3)示意圖

2、Expansion Loss :

由CAM方法生成的初始Seed cues雖然準確但是小而稀疏,不能直接作爲分割mask,作者設計expand分支網絡,在seed cues的基礎上,擴張分割區域,即擴張確定label的區域。

作者設計的擴張分支十分簡單,直接以分割網絡爲基礎,分割網絡生成的是C個feature maps,其上每一個像素的值分別對應着圖片每一個像素屬於對應的C類的可能性大小。

對於圖片中存在的類別,該類別對應的feature map上應該存在不爲0的值,且會存在一個物體區域。作者簡單的利用分類Loss來設計expand loss,將分割網絡輸出的feature map的值融合爲一個分類分值,C個feature maps剛好融合爲圖片對C類的預測分值。這個分值越大,則表示圖片中存在這個類別物體的可能性越大,也可以驅使這個feature map 上的像素的值越大,存在較大值的區域越大。

如何將feature map融合爲一個分類分值呢?

一般的做法大多是取均值或者最大值,但是取均值一般會低估網絡的性能,而去最大值則會高估性能,作者設計的GWRP方法針對一個feature map,對於其中的預測值大的像素取較大的權重,而對預測值小的像素取較小的權重,使用加權和作爲分類分值。

GWRP:

對於圖片輸入網絡輸出的feature maps中C個feature map,每個map有n個像素,對這n個像素的對應預測爲label c的分值的大小進行排序,

對於權重d:

  • 當dc=0時,僅j=1時存在值fi1,c(x),且Z(dc)=1即等價於GMP
  • 當dc=1時,等價爲GAP
  • 具體的值:

對於分割網絡生成的c+1個feature maps,對於c對應的feature map fc,使其上的屬於label c的可能性越來越大,具有確定label的區域越來越大。

公式:

Gc爲由feature map融合的分值(GWRP):

Lexpand作用爲使得圖片中存在的類的分值儘可能大,不存在的類的分值儘可能小,背景類的值儘可能地大,如同分類一般。

3,constrain loss

如果僅僅有seed loss 定位,expand loss 擴展seed 區域,而不加以限制的話,分割網絡預測的分割圖很容易便會超出物體實際的邊界,造成較低的性能。作者在這篇文章中利用條件隨機場CRF,根據圖片本身的顏色等信息,對物體邊界進行限制,使模型能夠獲得較好的結果。

公式:

理解:KL散度,使得網絡輸出接近CRF的輸出

CRF的使用:(具體使用方法,以後再講)

  • 一元勢:網絡的輸出預測分值
  • 二元勢:圖片的像素
  • 可以得到邊界的結果Q(x,f(x))
  • 但是位置相近有相同顏色會易於被標記爲一類,而人穿不同衣服則可能出現誤差

SEC方法:

數據集:VOC擴充【10】至10582的數據

分割網絡:DeepLab-CRF-LargeFOV

數據尺寸:input:(321*321)--> 分割mask(41*41)

結果:51.7%

存在問題:

  • seed cues靜態監督,後期會限制分割精確度
  • CRF對於同一物體但身上不同顏色類的物體容易判別失誤

普遍挑戰:

  • 某種物體常伴隨相應場景出現,以至於與背景難以區分,如船和水,火車和軌道【15】
  • 物體正確檢測出,但被安上錯誤的類別標籤
  • 可能與DeepLab網絡存在較大感受野,充分利用了上下文信息有關,大的感受野有助於分類卻不一定適於定位
  • 但是這個問題在這篇論文方法中很少出現,幾乎沒有,參照感受野的探究分析,可能因爲seed loss 已經有了很強的定位能力,大的感受野對其難產生干擾。
  • 分割物體僅僅分割出了部分
  • 定位網絡僅檢測出最具判別性的區域
  • 當物體重疊或由多個外表不同組件組成時。

探究分析:

(1)GWRP

fg fraction:預測爲fg的像素/總的像素

(2)Loss的作用

(3)感受野

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章