Revisiting-Dilated-Convolution-A-Simple-Approach-for-Weakly-and-Semi-Supervised

when

  • 魏雲超組的18年
  • cvpr spot

who

  • 弱監督語義分割問題的新方法,用擴張卷積得到注意力圖,可能能夠在GAIN的大框架上面修改

why 提出

  • 儘管弱監督分割方法取得了顯着的進步,但仍然不如全監督的方法。我們認爲性能差距主要來自他們學習從圖像級監督產生高質量密集對象定位圖的限制。
  • 爲了彌補這種差距,我們重新審視了空洞卷積[1]並揭示瞭如何以一種新穎的方式利用它來有效地克服弱監督分割方法的這一關鍵限制。具體而言,我們發現不同的擴張率可以有效地擴大卷積核的感受域,更重要的是將周圍的鑑別信息轉移到非鑑別對象區域,促進這些區域在對象定位圖中的出現。
  • 然後,我們設計了一個通用的分類網絡,配備了不同擴張率的卷積塊。它可以生成密集可靠的對象定位圖,並有效地受益於弱監督和半監督語義分割。儘管顯而易見,但我們提出的方法獲得了優於現有技術的優越性能。
  • 特別是,它在Pascal VOC 2012測試集上實現了60.8%(弱監督設置,僅有圖像級標籤可用)和67.6%(半監督設置,1,464個分割mask可用)的mIoU得分,這是最先進的效果。

where(適用範圍,優點,缺點, 創新點,以前的方法)

出發點

  • 弱監督的圖像識別方法 [11, 15, 16, 19, 23, 38-42, 44]已被廣泛研究,因爲它們不需要昂貴的人力。 其中,最吸引人的是學習僅從圖像級標註中分割圖像。 對於這樣的方法,可以說仍然未解決的最關鍵的挑戰是如何準確和密集地定位對象區域以獲得用於啓動和改進分割模型訓練的高質量對象線索[1, 20, 45]。

  • 最近,一些自上而下的方法 [43, 46] 提出利用分類網絡爲對象定位產生特定於類的注意力線索。然而,直接採用由圖像分類模型產生的注意力只能識別目標對象的小的鑑別區域,其對於訓練良好的分割模型而言不夠密集和廣泛。例如,在圖1(b)的第二行中示出了由現有技術的類激活映射(CAM)[46]產生的一些類特定區域定位的樣本。可以觀察到CAM在通常存在大對象的情況下幾乎不產生密集對象區域,這偏離了語義分割任務的要求。 CAM發現的那些區域通常散佈在目標物體周圍,例如,一些鑑別性的部分,如孩子的頭部和手部。無法學習從圖像級監督產生密集對象定位是開發性能良好的弱監督分割模型的關鍵障礙。基於這樣的觀察,我們提出將鑑別知識從那些稀疏突出的區域轉移到相鄰的對象區域,從而形成密集的對象定位,這可以基本上有利地提升分割模型學習。

    img

優點

  • 爲此,我們重新審視了流行的擴張卷積,並發現它確實提供了適當利用的有希望的解決方案。 擴張卷積最初由Chen等人 [1, 2] 引入,用於語義分割。 一個關鍵的優點是它可以有效地擴大感受野大小以結合上下文而不引入額外的參數或計算成本。 我們發現這樣的特徵很好地適合跨圖像區域傳播鑑別信息並突出顯示非鑑別對象區域以產生密集對象定位。 由此推動,我們引入了多個擴張卷積塊來增強標準分類模型,如圖1(a)所示。

  • 特別是,我們提出的方法通過改變卷積核的擴張率來擴展多尺度的感受域。 通常,分類網絡能夠識別具有高響應的一個或多個小鑑別部分以正確識別圖像。 通過擴大感受野,具有低響應的物體區域可以通過感知周圍的高響應環境而獲得改善的鑑別力。 這樣,目標對象的高響應部分的鑑別信息可以以多個尺度傳播到相鄰的對象區域,使得它們更容易被分類模型識別。 我們利用CAM [46]爲每個卷積塊生成對象定位圖。 如圖1(a)所示,卷積塊只能定位兩個小的鑑別區域而不擴大擴張率,即d = 1.通過逐漸增加擴張率(從3到9),發現了更多的物體相關區域。

  • 然而,一些真正的負面區域可能以大的擴張率錯誤地突出顯示(例如,對應於d = 9的定位圖)。 然後,我們提出了一種簡單而有效的抗噪聲融合策略來解決這個問題。 該策略可以有效地抑制由放大的感受野激活的與物體無關的區域,並將由不同的擴張塊產生的定位圖融合成整體突出的物體區域。 從圖1(b)所示的例子可以看出,我們的方法對於尺度變化非常穩健,並且能夠密集地定位目標對象。

創新點

  • 我們使用由我們提出的方法生成的定位圖來生成用於訓練分割模型的分割mask。 我們的方法是通用的,可以用於以弱監督和半監督方式學習語義分割網絡。 儘管它顯而易見,但我們的方法確實提供了密集的對象定位,可以輕鬆地將弱和半監督的語義分割推廣到新的現有技術,如廣泛的實驗所示。 總而言之,這項工作的主要貢獻有三方面:
    • 我們重新考慮了擴張卷積,並揭示它自然符合密集定位對象區域的要求,以構建一個良好的弱監督分割模型,這是弱/半監督圖像語義分割的新方法。
    • 我們提出了一種簡單而有效的方法,利用擴張卷積通過傳遞鑑別分割信息來密集定位對象。
    • 我們提出的方法對於以弱和半監督方式學習語義分割網絡是通用的。 特別是,它在弱設置和半設置的Pascal VOC分割基準測試集上分別達到了60.8%和67.6%的mIoU評分,這是新的最新技術水平。

以前的方法

使用粗略標註進行分割
爲訓練語義分割模型收集大量像素級註釋是消耗勞力型的。 爲了減輕像素級註釋的負擔,Dai等人 [3] 和Papandreou等人 [21] 提出用標註邊界框學習語義分割。 Lin等人 [17] 採用語義線作爲語義分割的監督。 最近,監督的標註進一步放寬到[28]中的實例點。

使用圖像級標註進行分割
圖像級標籤很容易獲得,是傾向於分割的最簡單的監督。一些研究 [22-24] 提出利用多個實例學習進行語義分割與圖像級標籤。 Papandreou等人 [21] 提出基於期望最大化算法動態預測前景物體和背景以進行監督。最近,在這項具有挑戰性的任務上取得了很大進展 [8, 9, 13, 14, 26, 29, 31, 34, 35] 。 Wei等人 [35] 和Qi等人 [26] 利用生成用於監督的像素級標註。然而,利用MCG [25] 提出的採用額外的網絡[36]進行基於候選的分類通常會導致大量的時間消耗,並且固有地使用更強的監督(MCG已經通過具有像素級註釋的PASCAL訓練圖像進行訓練) 。 Wei等人 [34] 提出了一種簡單到複雜(STC)的框架,以逐步提高分割網絡的能力。然而,STC的成功主要取決於大量簡單的訓練圖像。 Kolesnikov等人 [14] 提出了一種SEC方法,它將三種損失函數(即種子,擴展和約束邊界)整合到一個統一的框架中,以訓練分割網絡。但SEC只能獲得用於監督的小而稀疏的對象相關種子,這無法爲可靠的分割模型提供足夠的信息。最近,Wei等人 [33] 提出了一種對抗性擦除(AE)方法來挖掘密集對象區域進行監督。儘管它在PASCAL VOC基準測試中實現了最先進的性能,但AE方法需要重複的訓練程序來學習多個分類模型,然後將其應用於定位與物體相關的區域。相比之下,我們只需要訓練一個分類模型來定位這項工作中的密集和整體對象區域。

how

1. 重新審視空洞卷積

  • 一些自上而下的方法 [43, 46] 可以識別有助於分類網絡決策的鑑別對象區域,但是它們通常會錯過非鑑別對象區域。我們提出通過使信息從鑑別區域轉移到相鄰的非鑑別區域來增強分類模型以克服這種限制。我們發現擴張卷積[1]可以通過擴大核的感受野大小來有效地結合周圍環境,提供了一種很有前景的解決方案。圖2說明了擴張如何實現信息傳遞。最初,綠圈中的頭部區域對於分類網絡來說是最具鑑別力的,以將其識別爲“鳥”圖像。我們採用3x3卷積內核在紅圈指示的位置學習特徵表示。通過將擴張率從3×3核的1擴大到3,將感知到頭部附近的位置並且增強其鑑別力。通過進一步增加擴張率(即d=6,9),一些其他位置將感知頭部並且類似地促進分類模型以發現這些區域。爲了證明擴張卷積確實可以提高低響應對象區域的鑑別能力,我們使用CAM [46]以不同的擴張率產生定位圖。我們可以觀察到,d=1的定位圖上的那些低響應對象區域可以用各種擴張率有效地突出顯示。產生的定位圖根據不同的擴張率互補,因此也需要來自多個擴張塊的綜合結果。

img

2. 用於定位的多擴張卷積

  • 受上述發現的推動,我們提出了一個具有多擴張卷積塊(MDC)的增強分類網絡,以產生密集的對象定位,如圖3所示。該網絡建立在ImageNet預訓練的VGG16 [32] 模型上 [4]。 我們刪除那些全連接層和一個池化層以擴大特徵圖的分辨率。 然後,將具有多個擴張率(即d=ri,i=1,⋅⋅⋅,k)的卷積塊附加到conv5,以定位由不同感受域感知的對象相關區域。 在全局平均池化層(GAP)之後,所產生的代表進一步通過全連接層來預測圖像級別分類。 我們通過最小化sigmoid交叉熵損失來優化分類網絡,然後使用分類激活圖(CAM)[46] 方法來爲每個塊產生類特定的定位圖。

img

  • 我們實現了兩種卷積運算。

    1. 我們應用標準內核,即d=1。在這種情況下,我們可以獲得精確的定位圖,其中目標對象的一些鑑別部分被突出顯示但是許多與對象相關的區域被遺漏。
    2. 爲了將稀疏突出區域的鑑別性知識轉移到其他對象區域,我們改變擴張率以擴大核的感受域。 以這種方式,來自相鄰突出顯示區域的鑑別特徵可以被轉移到尚未被發現的對象相關區域。 我們觀察到大擴張率的卷積塊將引入一些不相關的區域,即通過利用相鄰的鑑別對象部分突出顯示的一些真正的負面區域。 因此,我們建議在這項工作中使用小的擴張率(即d=3,6,9)。
  • 然而,即使我們採用小的擴張率,仍然可以識別一些不相關的區域。爲了解決這個問題,我們提出了一種簡單的抗噪聲融合策略來抑制與物體無關的區域,並將生成的定位圖融合成一個整體,其中對象區域被突出顯示。我們注意到,真正的與物體相關的真實區域通常可以通過兩個或更多個定位圖來區分,真正的負面區域在不同的擴張下顯示出差異。爲了去除錯的區域,我們對由不同的擴張卷積塊(d=3,6,9)生成的定位圖進行平均操作。然後,將平均定位圖圖添加到標準卷積塊(d=1)的定位圖中以產生最終的定位圖。以這種方式,不會錯過由標準卷積塊挖掘的精確區域。形式上,我們使用H0和Hi(i=1···nd並且nd是擴張的卷積塊的數量)來分別表示由標準和擴張的卷積塊生成的定位圖。然後通過H=H0+∑Hi產生用於對象區域生成的最終定位圖H:

  • 基於H,具有大於預定義閾值δ的值的像素被認爲是前景支持對象相關區域。 此外,還需要背景定位提示來訓練分割網絡。 受 [14, 33, 34] 的啓發,我們利用顯着性檢測方法 [37] 來生成訓練圖像的顯着性圖,並將具有低顯着性值的像素作爲背景。 我們遵循 [33] 中詳述的相同策略來合併突出顯示的對象區域和背景提示。 最後,我們能夠獲得每個訓練圖像的預測分割mask以便學習分割。

3. 弱分割學習和半分割學習

我們應用由所提出的方法產生的密集定位圖來訓練弱和半監督的分割模型。

弱監督學習

於弱監督應用,我們採用與 [21,33] 中提出的類似的框架來利用推斷的分割mask中的那些被忽略的像素並獲得對錯誤標記的像素的魯棒性,如圖4的上部所示。 具體地,我們提取對應於真實情況的圖像級標籤的置信度圖,用於以在線方式推斷分割mask,其與從密集定位圖導出的分割mask一起用作監督。

img

1546661364863

半監督學習

1546661398682

how much

數據集與設置

數據集與評價指標
所提出的方法在PASCAL VOC 2012分割基準[5]上進行評估。 在此數據集中標註了1個背景類別和20個對象類別。 按照慣例 [1, 6, 33],通過增強訓練圖像的數量增加到10582。 驗證和測試子集分別包括1,449和1,456個圖像。 我們根據21個類別的mIoU來評估性能。 對於所有實驗,僅使用圖像級標籤作爲監督,並對驗證集進行詳細分析。 我們將我們的方法與驗證和測試集上的其他最新方法進行比較。 通過將預測結果提交給官方PASCAL VOC評估服務器獲得測試集上的結果。

訓練與測試設置
我們採用在ImageNet [4]上預訓練的VGG16 [32] 的卷積層來初始化分類網絡,除了新添加的卷積塊。對於分割網絡,選擇 [1] 中的DeepLab-CRF-LargeFOV模型作爲基本網絡,其參數也由VGG16初始化。我們採用30個圖像的小批量大小。從圖像中隨機裁剪321×321像素的patch,用於訓練分類和分割網絡。我們訓練模型15個epoch。初始學習率設定爲0.001,並在6個epoch後減少10倍。所有實驗均在NVIDIA TITAN X PASCAL GPU上進行。我們使用DeepLab [1] 代碼,該代碼基於公開的Caffe框架 [10] 實現。爲了基於密集定位圖獲得對象相關區域,選擇屬於唯一最大值的前30%的像素作爲對象區域。由 [37] 產生的顯着性圖用於提供背景線索。按照 [33] 的設置,我們將標準化顯着性值小於0.06的像素設置爲背景。訓練時將忽略所有衝突和未分配的像素。

與現有方法的比較

弱監督語義分割

對於弱監督語義分割,我們主要比較使用粗略像素級註釋(包括線,邊界框和點)和圖像級註釋作爲監督信息的方法。 表1顯示了PASCAL VOC驗證集和測試集的比較。 注意,一些方法利用更多圖像進行訓練,即MIL-* [24](700K),TransferNet [7](70K),STC [34](50K)和Hong等人 [8](970K)。 此外,由於使用了MCG [25] 所提出的,一些方法(例如SN_B [35] 和AF-MCG [26])隱含地使用了像素級監督。

img

從表1可以看出,從我們生成的密集定位圖推斷的分割mask對於學習分割網絡是非常可靠的,其優於使用圖像級標籤作爲弱監督的所有其他方法。我們注意到Hong等人 [8] 在這項具有挑戰性的任務中取得了最先進的表現。但是,這種改進主要得益於使用額外的視頻數據進行訓練。由於視頻中的時間動態可以提供豐富的信息,因此與靜止圖像相比,更容易區分整個對象區域和視頻。值得注意的是,我們只使用10K圖像來訓練模型,該模型超過Hong等人 [8]在驗證集上的表現2.3%。這很好地證明了所提出的方法在生成高質量密集對象定位圖方面的有效性。 AE-PSL需要進行多個對抗性擦除步驟來挖掘與物體相關的區域,這需要訓練多個不同的分類模型用於對象定位。所提出的方法僅需要訓練一個單一的分類模型來定位對象區域並且獲得比AE-PSL好得多的mIoU分數。與AF-MCG [26] 相比,我們的方法不需要大量的候選,因此提高候選的效率更高,並且對它們的訓練非常耗時。在沒有任何像素級監督的情況下,我們的弱監督結果進一步接近基於線和基於邊界框的方法,並且超過基於實例點的方法超過8.8%。我們對PASCAL VOC測試集進行了額外的比較。我們的方法在這個競爭基準上實現了新的最新技術水平,並且超過其他人的mIoU分數2.1%。

半監督語義分割

對於半監督語義分割,我們主要與WSSL [21] 進行比較,其中弱標註是圖像級標籤。 爲了進一步驗證密集定位圖的質量,我們還與可以利用邊界框進行監督的方法進行了比較。 我們採用與那些基準相同的強/弱拆分,即1.4K強註釋圖像和9K弱註釋圖像。

從表2可以看出,在相同設置下,我們的方法比WSSL獲得更好的結果,即驗證集爲65.7%對64.6%,對於測試集爲67.6%對66.2%。 此外,我們還與使用對象邊界框作爲弱監督信息而不是圖像級標籤的其他方法進行比較。 儘管我們的方法使用了較弱的監督,但它仍然分別在驗證和測試集上實現了競爭性和更好的mIoU分數。

img

why (爲什麼效果好)

密集對象定位策略

用於對象定位的所採用的分類網絡通過具有多個擴張率的卷積塊來增強。來自不同擴張塊的對象相關提示可以集成到密集和整體對象區域中。爲了驗證這一點,來自不同卷積塊的定位圖樣本和融合結果在圖5中可視化。我們觀察到塊(d=1)能夠以高精度但低召回率定位對象(目標對象的大多數區域錯過了)。通過利用具有較大擴張率的其他塊(d=3,6,9),一些其他與物體相關的區域被突出顯示,例如,第一排貓右邊的身體(d=6)和第二排的摩托車的一些部分(d=3和d=6)。然而,我們注意到,如果我們採用大的擴張率(例如,對應於d=6和d=9的那些定位圖),也會突出顯示一些真正的負面區域。例如,我們可以觀察到地圖中的中心區域(第5行,第6列)變得對類別狗有鑑別性。原因是當對中心像素進行卷積運算時,放大的核感知兩隻狗周圍的環境,這提高了產生的卷積特徵的鑑別能力。

img

圖5.由不同擴張塊產生的定位圖的示例以及具有抗噪聲融合策略的密集定位圖。一行失敗例子顯示在底行。

可以觀察到,正確的正面對象相關區域通常由兩個或更多個定位圖共享,並且錯誤的正面對象相關區域根據擴張率而不同。 爲了防止與錯誤對象相關的區域被突出顯示,我們對這些具有擴大的擴張率定位圖進行了平均操作。 然後,我們將獲得的定位圖與由d=1的塊產生的定位圖相加以產生最終結果。 從圖5中可以看出,即使對於一些具有挑戰性的情況,例如多類和多實例,大多數對象區域都會在最終的融合定位圖中突出顯示。

此外,我們的方法值得強調的一個優點是,無論對象的大小如何,我們都可以根據生成的密集定位圖輕鬆地使用固定閾值來準確獲取大多數對象區域。 然而,如圖1(b)和圖5所示,很難使用固定閾值來精確地提取定位圖的對象區域而不會擴大膨脹率(即d=1)。特別是,我們需要一個大對象的小閾值,以便發現大多數與對象相關的區域。 然而,小對象的值需要很大,以便可以禁止真正的負面區域。

我們在圖5的底行顯示了一個失敗例子。該樣本具有以下特徵,即當d=1時,具有大規模的對象和僅在目標對象的一端稀疏突出顯示的鑑別區域。在這種情況下 ,使用小的擴張率難以將鑑別力知識從物體的頭端轉移到尾端。 我們相信 [33] 中提出的諸如對抗性擦除等一些技術可能有助於解決這個問題。

弱監督語義分割

表3示出了使用由不同定位圖產生的分割mask作爲學習分割網絡的監督的比較。我們觀察到通過擴大卷積核的膨脹率逐漸改善了性能(從50.3%到54.4%),這可以進一步驗證使用擴張卷積塊進行物體定位的有效性。此外,基於所提出的抗噪聲融合策略產生的密集定位圖,mIoU得分可以進一步提高到57.1%,這可以進一步證明該策略在突出物體和消除噪聲方面的有效性。請注意,我們還嘗試通過平均來自所有卷積塊(包括d = 1)的定位圖來生成密集定位圖。與使用當前的融合策略相比,mIoU評分下降近1%。此外,與使用一個塊相比,使用具有相同擴張率(例如d = 1)的四個卷積塊的mIoU沒有顯着改善。由於條件隨機場(CRF)已被視爲語義分割的標準後處理操作,並被所有先前的工作用於進一步提高性能,因此我們系統地使用CRF來細化預測的掩模,以便與其他最先進的方法進行公平比較。我們可以觀察到,我們的方法最終可以分別在驗證集和測試集上達到60.4%和60.8%的mIoU評分,並且優於所有其他弱監督方法。

img

半監督語義分割

表4示出了以半監督方式使用不同強/弱拆分用於傾斜分割網絡的結果。我們觀察到,通過將強圖像的數量從1.4K減少到500,性能僅下降0.9%,這表明即使使用少量強圖像,我們的方法也可以容易地獲得可靠的分割結果。基於生成的密集定位圖,我們在CRF後處理的驗證和測試集上實現了最新的最新結果(基於1.4K強圖像)。我們還在另一個使用2.9K強圖像進行訓練的環境中進行評估。我們可以看到相應的mIoU得分爲68.5%,這與[21]中報告的相同。由於[21]和這項工作都基於相同的基本分割網絡,因此當強標註圖像的數量超過某個閾值時,性能可能會飽和。我們將圖6中的一些預測分割mask可視化,這表明我們的方法可以獲得令人滿意的分割結果,其中幾個甚至沒有用於訓練的強標註圖像。

img

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章