弱監督語義分割算法|AE-PSL算法對抗性擦除最具有判別性區域

弱監督語義分割算法|AE-PSL算法對抗性擦除最具有判別性區域

這是一篇有趣的弱監督語義分割算法,最有趣的在什麼地方呢?它通過將圖片中最重要的、最具有判別性的部分擦除了,從而來得到次判別性區域,不明白他爲什麼會捨棄最好的而求其次吧?其實只是因爲具有判別性的區域的存在遮蓋住了其他的地方,而我們需要的是完整的物體區域,所以先委屈他被捨棄一小會,而幫助我們得到完整的區域啦!

論文:Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Approach

會議:CVPR,2018

研究任務:弱監督語義分割,利用僅有圖片類別標籤訓練像素級分割模型

語義分割簡單介紹

CAM方法:利用classification networks進行物體定位,找到每一類別物體的部分位置,稱之爲seed regions。

具體方法如下圖,詳細介紹參照之前文章CAM詳解

通過分類網絡,可以看到,網絡確實具有定位功能,但是定位的都是物體最具有判別性的區域,像動物的頭部等,如下圖。

問題:

classification networks往往僅關注物體中最具有判別性的區域,像物體頭部,因此用CAM方法生成的seed regions雖然位置準確但往往小並且稀疏,不能直接作爲監督訓練全監督語義分割模型。那我們如何可以獲得比較完整的物體區域呢?

方法:

這篇文章提出一個對抗性擦除最具有判別性的區域的方法,找到整個object Region.

具體地,如下圖,有一張狗的圖片,將它送到Classification Network中,通過CAM的方法,會找到最具有判別性的頭部區域,然後將狗的頭部區域擦除再放入網絡,網絡將會找到狗的胸部區域,通過多次操作,最終可以找到狗的完整的區域。

下面的結果表示,對抗性擦除操作的確具有較好的結果

這裏有一個問題,就是這樣的擦除操作需要迭代幾次,便可以獲得不錯的結果?

看上面的圖片,左圖可以看出最好的結果是執行三步時,結果最好。右邊是訓練loss圖片,可以看到當從第三步跳到第四步時,loss有一個比較大的跳躍,所以實驗證明,選擇三次比較好。

從上面的圖片中也可以看出,當執行擦除操作過多時,圖片中已經找不到物體的區域,網絡就會出背景中找具有判別性物體的區域,帶來不好的結果。

完整網絡結構:

基於VGG16訓練圖像的分類網絡,將最後兩個全連接層替換爲卷積層,CAM被用來定位標籤相關區域。

對於一張圖片,將其輸進網絡,通過CAM的方法對物體進行定位,得到圖片中最具有判別性的區域位置,狗的頭部,設置一個閾值提取出這個region,然後通過相減的方式,將狗的頭部擦去。最後將擦去頭部的狗的圖片送入網絡進行訓練,看圖片最下面一層,是每次操作得到的的具有判別性的區域。

如何選擇閾值以及如何擦除判別性區域?

閾值:在生成的location map(H)中,屬於前20%最大值的像素點被擦除。

擦除方式:將對應的像素點的值設置爲所有訓練集圖片的像素的平均值。

如何生成全監督語義分割的監督信息?

我們知道,訓練分割網絡,不僅需要物體的監督信息還需要背景部分的監督信息,我們來看一下,這篇文章中具體的如何生成全監督語義分割的監督信息的。

前景mask:基於分類網絡利用對抗擦除方法獲得物體區域,如下圖中紫色區域;

背景mask : 利用顯著性檢測技術生成的顯著圖生獲取圖像的背景信息,如下圖黑色部分,雖然顯著性檢測技術對於複雜的圖片的分割效果不是很好,但是可以利用它找出不顯著的部分作爲背景。

不確定區域:下圖中藍色區域表示未指派語義標籤的像素,這些像素點不參與訓練。

Online prohibitive segmentation learning (PSL)

由於在生成的segmentation mask中包含了一些噪聲區域和未被標註的區域,爲了更加有效地訓練,論文提出了一種PSL(Prohibitive Segmentation Learning)方法訓練語義分割網絡。

具體方法:對未標註的像素進行利用

該方法引入了一個多標籤分類的分支在線預測圖像包含各個類別的概率值,其實就是將feature maps執行average pooling得到一個存儲概率的向量,這些概率被用來調整語義分割分支中每個像素屬於各個類別的概率,並將概率值和feature maps相乘在線生成額外的segmentation mask作爲監督信息。和之前生成的mask一起訓練分割網絡。

由於圖像級的多標籤分類往往具有較高的準確性,PSL方法可以利用分類信息來抑制分割圖中的true negative區域。隨着訓練的進行,網絡的語義分割能力也會越來越強,繼而在線生成的segmentation mask的質量也會提升,從而提供更加準確的監督信息。

作用:

方法結果:

這是在VOC2012上的結果

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章