Learning-Pixel-level-Semantic-Affinity-with-Image-level-Supervision

when

  • cvpr18,目前top榜第一。有代碼。

who

  • 基於像素級標籤的圖像語義分割

why 提出

  • 分割標籤的不足是在自然環境中使用語義分割的主要障礙之一。
  • 爲了解決這個問題,我們提出了一種新穎的框架,可以根據圖像級別的標籤生成圖像的分割標籤。
  • 在這種弱監督的環境中,已知訓練的模型將局部鑑別部分而不是整個對象區域分割。我們的解決方案是將這種定位響應傳播到屬於同一語義實體的附近區域。
  • 爲此,我們提出了一種稱爲AffinityNet的深度神經網絡,它可以預測一對相鄰圖像座標之間的語義關聯。然後通過AffinityNet預測的相似度隨機遊走來實現語義傳播。更重要的是,用於訓練AffinityNet的監督由初始鑑別部分分割給出,其作爲分割標註是不完整的,但足以用於學習小圖像區域內的語義關聯。因此,整個框架僅依賴於圖像級類標籤,並且不需要任何額外的數據或標註。在PASCAL VOC 2012數據集中,通過我們的方法生成的分割標籤學習的DNN優於以前受過相同監督級別訓練的模型,甚至比依賴更強監督的模型更具競爭力。

where(適用範圍,優點,缺點, 創新點,以前的方法)

出發點

  • 深度神經網絡(DNNs)的最新發展推動了語義分割的顯着改進 [2, 3, 4, 19, 22, 25, 32, 39] 。 然而,儘管DNN取得了巨大成功,但我們在不受控制和現實的環境中實現語義分割還有很長的路要走。 其中一個主要障礙是缺乏訓練數據。 由於像素級分割標籤的標註成本過高,現有數據集通常缺乏標註樣本和類別多樣性。 這使得傳統方法限於在數據集中預定義的小範圍的對象類別。

  • 已經研究了弱監督方法來解決上述問題並允許語義分割模型更具可擴展性。 他們的共同動機是利用像邊界框 [6, 12, 28] 和線 [18, 36] 這樣的標註,這些標註比像素級標籤弱,但在大量視覺數據中很容易獲得,或者由於其低標註而易於獲得成本。 在用於語義分割的各種類型的弱標註中,圖像級類標籤已被廣泛使用 [11, 14, 17, 26, 29, 30, 37],因爲它們已經在現有的大規模圖像數據集中給出(例如,ImageNet [7])或通過搜索關鍵字自動標註圖像檢索結果。 然而,利用圖像級標籤監督來學習語義分割是一個非常病態的問題,因爲這種監督僅指示某個對象類的存在,並且不告知對於學習分割必不可少的對象位置和形狀。

  • 這一系列研究中的方法已經納入了額外的證據來模擬監督中缺少的位置和形狀信息。定位線索的一個流行選擇是類激活圖(CAM)[40],它通過追蹤隱藏單元對分類DNN輸出的貢獻來突出顯示目標對象的局部鑑別部分。 CAM突出顯示的鑑別區域又被用作種子,它們將被傳播以覆蓋整個對象區域。爲了從種子中準確地恢復對象區域,先前的方法利用圖像分割 [17, 30] ,視頻中的運動 [35] 或兩者 [11] ,所有這些都可用於估計對象形狀。出於同樣的目的,估計了類別不可知的顯着區域,並將其與種子結合在一起 [26] 。然而,他們需要額外的數據(即視頻)[11, 35],額外的監督(即對象邊界框) [26] ,或者不能利用表示學習的現成技術(即圖像分割)在DNNs [11, 17, 30] 。

  • 在本文中,我們提出了一種簡單而有效的方法來補償物體形狀的缺失信息,而無需外部數據或額外的監督。我們框架的關鍵組件是AffinityNet,它是一個DNN,它將圖像作爲輸入並預測相鄰圖像座標對的語義相似。給定一個圖像及其CAM,我們首先構建一個鄰域圖,其中每個像素在一定半徑內連接到它的相鄰,並通過AffinityNet估計圖中連接的對的語義相似度。然後,對於每個類,CAM中的稀疏激活通過圖上的隨機遊走[23]進行擴散:圖中邊緣的相似度鼓勵隨機遊走將激活傳播到附近和語義上相同的區域,並懲罰傳播到其他類的區域。這種語義擴散顯着地修改了CAM,從而恢復了精細的對象形狀。我們將此過程應用於訓練圖像,以便通過獲取與每個像素處修改的CAM的最大激活相關聯的類標籤來合成其分割標籤。生成的分割標籤用於訓練出用於測試的分割模型。

  • 剩下的問題是如何在沒有額外數據或額外監督的情況下學習AffinityNet。 爲此,訓練圖像的初始CAM被用作監督源。 由於CAM經常遺漏一些對象部分並出現錯誤,因此它們不完整,作爲學習語義分割的監督,其目的是準確地預測整個對象mask。 然而,我們發現它們通常是局部正確的,並提供證據來識別小圖像區域內的語義相似度,這是AffinityNet的目標。 爲了生成定位語義相似度的可靠標籤,我們忽略了CAM上具有相對較低激活分數的區域,以便僅保留高置信對象和背景區域。 然後通過對置信區域上的一對相鄰圖像座標進行採樣來獲得訓練樣本,並且如果其座標屬於相同類別則其二進制標籤爲1,否則爲0。

創新點

  • 所提出的方法的總體流程如圖1所示。首先,計算訓練圖像的CAM並用於生成語義相似標籤,其用作訓練AffinityNet的監督。 然後,我們將訓練好的AffinityNet應用於每個訓練圖像,以計算其鄰域圖的語義相似度矩陣,該矩陣在隨機遊走中用於修改其CAM並獲得合成的分割標籤。 最後,生成的分割標籤用於訓練語義分割DNN,這是將在測試時使用的唯一網絡。 我們的貢獻是三方面的:
    • 我們提出了一種名爲AffinityNet的新型DNN,它可以預測像素級的高級語義相似度,但僅使用圖像級類標籤進行訓練。
    • 與大多數以前的弱監督方法不同,我們的方法不依賴於現成的方法,並通過AffinityNet的端到端訓練利用表示學習。
    • 在PASCAL VOC 2012 [8]中,我們在同等級別的監督下訓練的模型中實現了最先進的性能,並且與依賴於更強監督或外部數據的模型相比具有競爭力。 令人驚訝的是,它甚至優於FCN [22],這是早期衆所周知的全監督模型。

在這裏插入圖片描述

  • 圖1.我們的方法的插圖。 對象類和背景的顯着區域首先由CAMs [40](第3.1節)定位在訓練圖像中。 從顯着區域,我們採樣成對的相鄰座標,並根據它們的類一致性爲它們分配二進制標籤。 然後使用標記的對來訓練AffinityNet(第3.2節)。 經過訓練的AffinityNet反過來預測局部圖像區域內的語義相似度,這些區域與隨機遊走相結合以修改CAM(第3.3節)並生成它們的分割標籤(第3.4節)。 最後,生成的標註被用作監督以訓練語義分割模型。

以前的方法

各類弱監督

  • 已經對用於語義分割的弱監督方法進行了廣泛研究,以解決數據缺陷問題。 語義分割的弱監督的成功例子包括邊界框 [6, 12, 28] ,線 [18, 36] ,點 [1] 等。 然而,這些類型的弱監督在標註過程中仍然需要一定量的人爲干預,因此爲大量視覺數據標註這些弱標籤是昂貴的。

圖像級標籤作爲弱監督

  • 圖像級類標籤已被廣泛用作語義分割的弱監督,因爲它們要求最少或不需要人工干預進行標註。 早期的方法試圖直接從圖像級標籤中訓練分割模型[28,29],但是它們的性能並不令人滿意,因爲標籤太粗糙而無法學習分割。 爲了解決這個問題,一些先前的方法結合了由鑑別定位技術[27,40]給出的分割種子以及超像素 [11, 17, 30],分割提議 [30] 和視頻中的動作 [11, 35] 等其他證據。它可用於估計物體形狀,並通過現成的無監督技術獲得。

  • 我們基於AffinityNet的框架與上述方法相比具有明顯的優勢。 AffinityNet從數據中學習如何將定位激活傳播到整個對象區域,而以前的方法無法獲得這樣的優勢。 與我們的一樣,一些方法可以提高分割質量,而無需現成的預處理。 Wei等人[37]建議通過順序搜索新的和互補的對象區域逐步擴展分割結果。 另一方面,Kolesnikov和Lampert [14] 學習了一種分割模型來逼近應用於CAM給出的分割種子的密集條件隨機場(dCRF)[15] 的輸出。

學習像素級相似度

  • 我們的工作也與學習像素級預測相似矩陣的方法密切相關 [2, 5, 36] 。具體地,圖像的以像素爲中心的相似度矩陣由在[2,5]中用分割標籤訓練的DNN估計。Bertasius等人 [2] 將相似矩陣與隨機遊走相結合,其作用是細化像dCRF這樣的分割模型的輸出。 Cheng等人 [5]設計了一個反捲積網絡,其中上池化層利用相似度矩陣在上採樣期間恢復清晰的邊界。上述兩種方法都旨在細化像素級中完全監督的分割模型的輸出。相反,我們的目標是通過高級語義相似度矩陣從對象部分的粗糙和嘈雜響應中恢復對象形狀,並且AffinityNet具有完全不同的體系結構。 Vernaza和Chandraker [36]採用線作爲弱監督,並提出同時學習分割網絡和隨機遊走相似度矩陣,以便網絡的輸出和線的隨機遊走傳播變得相同。我們的方法在以下三個方面與此工作不同。首先,我們的框架使用圖像級標籤進行訓練,這些標籤明顯弱於[36]中使用的線。其次,在我們的方法中,隨機遊走可以跳到某個半徑內的任何其他位置,但在[36]中,它只允許移動到四個最近的鄰居。第三,AffinityNet明確地學習成對語義關聯,但[36]中的模型隱含地學習它。

學習合成標籤

  • 我們採用不相交的傳遞途徑,首先生成合成標籤,並以完全監督的方式訓練帶有標籤的分割模型。 已經研究了這種傳遞途徑用於物體檢測[34]以及弱監督設置中的語義分割 [6, 11, 12, 17, 26, 35]。 我們的方法的一個獨特之處是AffinityNet,與採用現有優化技術的先前方法(例如,GraphCut,GrabCut和dCRF)和/或上述現成的預處理步驟相比較,端到端的可訓練DNN顯着提高合成標籤的質量。

how

我們的弱監督語義分割方法大致分爲兩部分:

  1. 合成給定圖像級標籤的訓練圖像的像素級分割標籤,
  2. 利用生成的分割標籤學習DNN用於語義分割。 整個框架基於三個DNN:網絡計算CAM,AffinityNet和分割模型。 前兩個用於生成訓練圖像的分割標籤,最後一個是執行實際語義分割的DNN,並且使用合成的分割標註進行訓練。 本節的其餘部分將詳細介紹三種網絡的特徵及其訓練方案。

1.計算CAM

  • CAM在我們的框架中發揮着重要作用。 與許多其他弱監督方法一樣,它們被視爲分割種子,它通常突出顯示對象的局部顯着部分,然後傳播以覆蓋整個對象區域。 此外,在我們的框架中,他們被用作訓練AffinityNet的監督來源。

  • 我們遵循[40]的方法來計算訓練圖像的CAM。 該體系結構是典型的分類網絡,具有全局平均池化(GAP),後跟全連接層,並且通過具有圖像級標籤的分類標準進行訓練。 給定訓練的網絡,由McMc表示的真實情況類c的CAM由下式計算:

1546575371006

img

2. 學習AffinityNet

  • AffinityNet旨在預測訓練圖像上一對相鄰座標之間的類不可知語義關聯。 預測的相似度在隨機遊走中用作轉移概率,使得隨機遊走將CAM的激活得分傳播到同一語義實體的附近區域,這顯着提高了CAM的質量。

在這裏插入圖片描述

在這裏插入圖片描述

2.1. 生成語義相似標籤

  • 爲了使用圖像級標籤訓練AffinityNet,我們利用訓練圖像的CAM作爲不完整的監督來源。 儘管如圖2所示,CAM通常是不準確的,但我們發現通過仔細操作它們,可以獲得對語義相似度的可靠監督。

  • 我們的基本思想是從CAM中識別物體和背景的高置信區域,並僅從這些區域中獲取訓練樣本。 通過這樣做,可以可靠地確定一對採樣座標之間的語義等價。 爲了估計物體的高置信區域,我們首先通過減小等式(2)中的α來放大Mbg。使背景得分主導CAM中對象的無關緊要的激活得分。 在將dCRF應用於CAM進行細化之後,我們通過收集目標類別得分大於任何其他類別(包括放大背景)的座標來確定每個對象類的可靠區域。 而且,在相反的設置中(即增加α以減弱Mbg),可以以相同的方式識別高置信的背景區域。 然後,圖像中的剩餘區域被視爲中性。 該過程的結果如圖4(a)所示。

img

圖4. 生成語義相似標籤的概念圖。(a) 對象類和背景的高置信區域:桃色爲人,綠色爲植物,黑色爲背景。中性區域採用白色進行顏色編碼。(b) 在小半徑內採樣的座標對用於訓練AffinityNet。如果兩個座標來自同一個類,則爲每個對分配標籤1,否則標記爲0。 當兩個座標中的至少一個屬於中性區域時,在訓練期間忽略該對。

  • 現在,可以根據由置信區域確定的類標籤將二元相似標籤分配給每對座標。 對於非中性的兩個座標(xi,yi)和(xj,yj),如果它們的類相同,則它們的相似標籤Wij∗爲1,否則爲0。此外,如果至少有一個座標是中性的,我們只是在訓練期間忽略該對。該方案如圖4(b)所示,使我們能夠收集相當大量的成對相似標籤,這些標籤也足夠可靠。

2.2. AffinityNet訓練

1546575612838

1546575647799

注意,等式(10)中的損失是不可知類別的。因此,訓練好的AffinityNet決定兩個相鄰座標之間的類一致性,而不明確地知道它們的類。 這種類別不可知的方案允許AffinityNet學習可以在多個對象類和背景之間共享的更一般的表示,並且顯着地擴大每個類的訓練樣本集。

3. 使用AffinityNet修改CAM

  • 經過訓練的AffinityNet用於修改訓練圖像的CAM。 AffinityNet預測的局部語義相似度被轉換爲轉移概率矩陣,這使得隨機遊走能夠識別圖像中的語義邊界,並鼓勵它在這些邊界內擴散激活分數。 我們憑經驗發現,使用語義轉換矩陣的隨機遊走可以顯着提高CAM的質量,從而使我們能夠生成準確的分割標籤。

  • 對於輸入圖像,AffinityNet生成卷積特徵圖,並且根據等式(3)計算映射中的特徵之間的語義相似度。 注意,如在AffinityNet的訓練中,在半徑γ的局部圓內的特徵之間計算相似度。 計算出的相似度形成相似度矩陣W,其對角元素爲1。隨機遊走的轉移概率矩陣T從相似度矩陣導出如下:

1546575699013

4. 學習語義分割網絡

  • 然後,修改的訓練圖像的CAM用於生成圖像的分割標籤。 由於CAM的尺寸小於其輸入圖像,我們通過雙線性插值將它們上採樣到圖像的分辨率,並使用dCRF對其進行細化。 然後簡單地通過選擇與修改的和上採樣的CAM中的每個像素處的最大激活分數相關聯的類標籤來獲得訓練圖像的分割標籤。 請注意,因爲我們爲背景和對象類計算CAM,所以也可以選擇背景類。

  • 通過上述過程獲得的分割標籤用作監督以訓練分割網絡。 在我們的方法中可以使用任何完全監督的語義分割模型,因爲我們提供訓練圖像的分割標籤。

5. 網絡結構

  • 在本節中,我們將介紹在我們的框架中採用的DNN架構的詳細信息。 請注意,我們的方法可以使用任何現有的DNN實現相同的目的,儘管我們仔細設計以下模型以增強分割性能。

骨幹網絡

  • 我們框架中的三個DNN都建立在相同的骨幹網絡上。 主幹是模型A1 [38]的修改版本,也稱爲ResNet38,具有38個具有寬通道的卷積層。 爲了獲得骨幹網絡,首先去除原始模型的最終GAP和全連接層。 然後將最後三個級別的卷積層替換爲具有公共輸入步幅1的帶孔卷積,並且調整它們的擴張率以使得骨幹網絡將返回步幅8的特徵圖。已知帶孔卷積通過擴大感受野而不犧牲特徵圖分辨率來提高分割質量[4]。 我們憑經驗觀察到它也適用於我們的弱監督模型CAM和AffinityNet,因爲它使模型能夠恢復精細形狀的物體。

我們框架中DNN的詳細信息

網絡計算CAM
我們通過在骨幹網絡頂部按順序添加以下三層來獲得此模型:具有512個通道的3×3卷積層,用於更好地適應目標任務,用於特徵映射聚合的全局平均池化層,以及全連接層用於分類。

AffinityNet
該網絡被設計用於聚合骨幹網絡的多級特徵映射,以便在計算相似度時利用在各種視野中獲取的語義信息。 爲此,選擇從骨幹網絡的最後三個級別輸出的特徵映射。 在聚合之前,對於第一,第二和第三特徵圖,它們的信道維度分別減少到128,256和512,分別由單個1×1卷積層。 然後將特徵映射連接成具有896個通道的單個特徵映射。 我們最終在頂部添加了一個1×1卷積層和896個通道用於自適應。

分割模型
我們嚴格遵循[38]來構建我們的分割網絡。 具體來說,我們在骨幹網絡的頂部放置了兩個更復雜的卷積層。 它們具有相同的擴張率12,而第一個通道的數量爲512,第二個通道的數量爲21。 生成的網絡在下一節中稱爲“Ours-ResNet38”。

how much

數據集
我們框架中的所有DNN都在PASCAL VOC 2012分割基準上進行了訓練和測試,以便與之前的方法進行公平比較。 按照慣例,我們通過採用[9]中提出的分割標註來擴大訓練圖像集。 因此,總共使用10,582個圖像作爲訓練樣本,並保留1,449個圖像用於驗證樣本。

網絡參數優化
我們DNN的骨幹網絡在ImageNet上進行了預訓練[7]。 然後,Adam[13]在PASCAL VOC 2012上對整個網絡參數進行了微調。 在訓練所有三個DNN時,通常使用以下數據增強技術:水平翻轉,隨機裁剪和顏色抖動[16]。 此外,對於除AffinityNet之外的網絡,我們在訓練期間隨機縮放輸入圖像,這對於在網絡上施加比例不變性是有用的。

參數設置
公式(2)中的αα默認爲16,並分別變爲4和24以放大和減弱背景激活值。 我們設置等式(4)中的γ爲5,等式(11)中的β爲8。此外,在等式(12)中的tt固定爲256。對於dCRF,我們使用原始代碼中給出的默認參數。

合成分割標籤的分析

我們的標籤合成方法的性能在真實分割和生成的分割標籤之間以mIoU測量,如表1所示。對於模塊研究,我們的方法分爲三個部分:CAM,RW(使用AffinityNet隨機遊走)和dCRF。爲了證明所提出的方法的優勢,我們還報告了超像素池化網絡(SPN)[17]的得分,其將CAM與超像素結合作爲用於生成具有圖像級標籤監督的分割標籤的附加線索。如表1所示,即使我們的CAM在生成的分割標籤的質量方面優於SPN,而不使用超像素等現成方法。我們相信這是因爲各種數據增強技術和更強大的骨幹網絡以及帶孔卷積層。此外,通過隨機遊走和學習的語義相似度,分割標註的質量得到顯着提高,證明了AffinityNet的有效性。最後,dCRF進一步略微提高了標籤質量,我們使用最後一個版本作爲學習分割網絡的監督。

img

表1. mIoU中合成分割標籤的準確度,在PASCAL VOC 2012訓練集上評估。SPN:超像素池化網絡[17],RW:使用AffinityNet隨機遊走。

圖5中顯示了合成分割標籤的例子,其中可以看到AffinityNet的隨機遊走有效地處理CAM中的錯誤和缺失區域。 爲了說明AffinityNet在此過程中的作用,我們還通過檢測特徵圖fafffaff上的邊緣來可視化圖像的預測語義相似度,並觀察到AffinityNet具有檢測語義邊界的能力,儘管它是使用圖像級標籤進行訓練的。 由於這樣的邊界懲罰語義上不同的對象之間的隨機遊走傳播,所以合成的分割標籤可以恢復準確的對象形狀。

img

上圖d中,黑色區域表示邊界,因爲附近類別不一致,白色表示內部,因爲類別一致;

與以前的研究比較

我們首先定量地將我們的方法與僅基於圖像級類標籤的先前方法進行比較。 PASCAL VOC 2012的結果總結在表2和表3中。請注意,我們還評估了使用我們的合成標籤(稱爲“Ours-DeepLab”)進行訓練的DeepLab [4],以便與其骨幹爲VGG16的其他模型進行公平比較[33] 。我們的兩個模型在基準的驗證集和測試集上的平均精度方面都優於當前的方法水平[37],而Ours-ResNet38略好於Ours-DeepLab,這得益於ResNet38更強大的表示。我們的模型也與表4中基於額外訓練數據或更強監督的方法進行了比較。它們基本上優於基於相同監督水平的方法,但有額外的數據和標註,如MS-COCO中的分割標籤[20],MSRA Saliency [21]和YouTube視頻[31]中使用了不可知類別的邊界框。他們還依賴於像線和邊界框這樣強有力的監督,與之前的方法競爭。令人驚訝的是,Ours-ResNet38甚至優於FCN [22],這是衆所周知的關於全監督語義分割的早期工作。這些結果表明,我們的方法生成的分割標籤足夠強大,可以替代額外的數據或更強的監督。我們最終將我們的模型與全監督的版本DeepLab [4]和ResNet38 [38]進行比較,這是我們可以實現的上限。具體而言,Ours-DeepLab恢復了86%的界限,而Ours-ResNet38則達到了77%。

img

表2. 與僅基於圖像級標籤的弱監督方法相比,PASCAL VOC 2012驗證集的性能。

img

表3. 與僅基於圖像級標籤的弱監督方法相比,PASCAL VOC 2012測試集的性能。

img

表4. PASCAL VOC 2012驗證集和測試集的性能。監督類型(Sup.)表示:P-實例點,S-線,B-邊界框,I-圖像級標籤和F-分割標籤。

圖6顯示了Ours-ResNet38的定性結果,並將它們與CrawlSeg [11]的定性結果進行了比較,後者是使用圖像級監督的當前最新方法。 我們的方法僅依賴於圖像級標籤監督,即使CrawlSeg利用額外的視頻數據來合成分割標籤,也可以產生更準確的結果。

img

圖6. PASCAL VOC 2012驗證集的定性結果。(a) 輸入圖像。(b) 真實分割。© CrawlSeg [11]獲得的結果。(d) 我們的結果-ResNet38。 與CrawlSeg相比,CrawlSeg是基於圖像級標籤監督的當前最先進的模型,我們的方法更好地捕獲更大的對象區域並且更不容易遺漏對象。 我們的結果的對象邊界比CrawlSeg的對象邊界更平滑,因爲我們不將dCRF應用於最終結果。 在補充材料中可以找到更多結果。

結論

爲了減輕語義分割中缺少標註數據問題,我們提出了一種基於AffinityNet的新型框架,僅在給定圖像級別標籤的情況下生成訓練圖像的準確分割標籤。 我們的方法的有效性已在PASCAL VOC 2012基準測試中得到證明,其中使用我們的方法生成的標籤訓練的DNN基本上優於先前依賴於相同監督水平的方法水平,並且與那些要求更強監督或額外數據的方法相比具有競爭力。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章