18-Learning-a-Discriminative-Feature-Network-for-Semantic-Segmentation

總結

when

  • CVPR 2018在這裏插入圖片描述

what

  • 在大量的計算機視覺應用中,語義分割是一項不可或缺的底層技術。
  • 曠視科技Face++近期發表的一篇 CVPR 2018 收錄論文《Learning a Discriminative Feature Network for Semantic Segmentation 》提出判別特徵網絡 DFN,有效解決了語義分割的兩個基本問題,顯著提高了其精度,可以幫助機器之眼更好地理解複雜的圖像和場景,解析靜態或動態人體及其他物體,有助於從根本上推動自動駕駛、手機影像、醫療影像、無人零售、物流安防等 AI 驅動型產業的普及與發展。

who (動機)

出發點

  • 本文提出的判別特徵網絡(Discriminative Feature Network/DFN)包含兩個子網絡 Smooth Network 和 Border Network,它有效解決了絕大多數現有語義分割方法面臨的**類內不一致(intra-class inconsistency)類間無差別(inter-class indistinction)**問題。
  • 具體而言,爲應對類內不一致問題,作者專門設計帶有通道注意力模塊(Channel Attention Block/CAB)和全局平均池化的 Smooth Network 以選擇更具判別力的特徵;而 Border Network 則藉助多層語義邊界監督區分邊界兩邊的特徵。
  • 伴隨着以全卷積網絡(Fully Convolutional Network/FCN)爲代表的卷積神經網絡的新近發展,很多工作成效顯著。但是,上述網絡學習的特徵經常存在判別性不強,難以區分的問題,表現爲:1) 標籤相同但外觀不同的圖像塊,稱之爲類內不一致,如圖 1 第一行所示;2) 兩個相鄰的圖像塊,標籤不同但外觀相似,稱之爲類間無差別,如圖 1 第二行所示。

1547692195230

我們的方法

  • 爲解決上述兩個挑戰,本文從一個更加宏觀的角度重新思考語義分割,將其看作一項把一致的語義標籤分配給一類物體而不是每個單一像素的任務。這就需要把每個類別的像素看作一個整體,進而同時兼顧類內一致(intra-class consistency)與類間差別(inter-class variation)。這意味任務需要判別特徵,所以本文提出一個全新的判別特徵網絡(DFN) 以學習特徵表徵。
  • DFN 有兩個組件:Smooth Network 和 Border Network。Smooth Network 用來解決類內不一致問題,從而需要學習一個魯棒特徵表徵,爲此本文主要考慮兩個關鍵因素。一方面,需要多尺度和全局語境特徵編碼局部和全局信息。比如,由於缺乏足夠的語境信息,圖 1(a) 中的白色小圖像塊經常無法預測正確的類別;另一方面,隨着引入多尺度語境,對於一定尺度的物體來說,特徵具有不同程度的判別力,其中一些可能預測假標籤。因此,有必要選擇高效的判別特徵。正是出於上述兩方面的考慮,Smooth Network 展現爲 U 形結構,以抓取不同尺度的語境信息,並通過全局平均池化抓取全局語境。此外,本文還提出通道注意力模塊(CAB),利用高層特徵逐階段地指導低層特徵的選擇。
  • Border Network 負責區分外觀相似但標籤不同的相鄰圖像塊。大多數現有方法把語義分割看作一種密集識別問題,無法明確建模類間關係。以圖 1(d) 爲例,如果越來越多的全局語境整合進分類過程,相鄰於顯示器的電腦主機由於外觀相似很容易被誤認是顯示器。因此,明確地使用語義邊界指導特徵的學習非常重要,這可以增強特徵兩邊的變化。訓練時,作者把語義邊界損失整合進 Border Network 以學習判別特徵,增大類間差別。

where

創新點

  • 從一個新的宏觀視角重新思考語義分割,將其看作一項把一致的語義標籤分配給一類物體(而不僅僅是在像素層面)的任務。
  • 提出 DFN 同時解決類內一致和類間差別問題。DFN 分別在 PASCAL VOC 2012 和 Cityscapes 數據集上取得 86.2% 和 80.3% 的當前最優 mean IOU,證實了該方法的有效性。
  • 提出 Smooth Network,通過全局語境和通道注意力模塊提升類內一致性。
  • 提出一種自下而上的 Border Network,利用多層邊界監督信號增大語義邊界兩邊的特徵變化,同時優化預測的語義邊界。

how

網絡架構

  • DFN的網絡架構,首先詳述它的兩個組件 Smooth Network 和 Border Network;接着,具體解釋兩者如何實現類內一致和類間差別;最後描述 DFN 完整的編碼器-解碼器網絡架構。有關

1547692486168

Smooth Network

  • 絕大多數現有方法無法保證正確預測每個圖像塊的類別,尤其當圖像塊屬於較大區域和複雜場景之時;這種類內不一致問題的主要原因在於語境的缺失,爲此作者提出帶有全局平均池化的全局語境。但是,全局語境只具有高語境信息,無助於復原空間信息,作者需要多尺度感受野和語境來優化空間信息,正如大多數現有方法那樣。然而,由於不同尺度的感受野其判別力也各不相同,從而造成不一致的結果,從而需要選擇更具判別力的特徵預測某個特定類別的統一語義標籤。

  • 具體而言,本文使用 ResNet 作爲基礎識別模型;根據特徵圖大小,該模型可劃分爲 5 個階段。據觀察,不同階段識別能力各不相同,一致性表現也各不相同。在低級階段,網絡編碼更精細的空間信息,但是由於缺乏空間語境指導和感受野較小,其語義一致性表現欠佳;而在高級階段,由於感受野較大,語義一致性表現較佳,但是預測的空間信息較粗糙。總體而言,低級階段有着更精確的空間預測,而高級階段有着更精確的語義預測。基於這一觀察,本文提出 Smooth Network 以整合兩者的優勢,利用高級階段的一致性指導低級階段獲得最優的預測。

1547692567623

  • 當下流行的語義分割架構主要有兩種 style,一種是 Backbone,如 PSPNet 和 Deeplab v3;另一種是 Encoder-Decoder,比如 RefineNet 和全局卷積網絡。但上述架構並不完備,爲此,本文首先嵌入一個全局平均池化層把 U 形架構擴展爲 V 形架構,爲網絡引入最強的一致性約束作爲指導;此外,本文提出通道注意力模塊以優化一致性,如圖 2© 所示。該設計結合相鄰階段的特徵以計算通道注意力向量(圖 3(b))。高級階段的特徵給出一個強大的一致性指導,而低級階段的特徵給出特徵的不同判別信息,從而通道注意力向量可以選擇判別特徵。

  • 通道注意力模塊 CAB 的設計目的是改變每一階段的特徵權重以優化一致性,如圖 3 所示。在 FCN 架構中,卷積算子輸出一個 score map,給出每一類別在每個像素上的概率。其實際意義在於暗示了不同通道的權重是平等的。然而,如上所述,不同階段的特徵判別力不同,造成預測的一致性各不相同。爲實現類內一致預測,應該提取判別特徵,並抑制非判別特徵,從而可以逐階段地獲取判別特徵以實現預測類內一致。

  • 優化殘差模塊 特徵網絡中每一階段的特徵圖全都經過 RRB,如圖 2(b) 所示。該模塊的第 1 個組件是 1 x 1 卷積層,作者用它把通道數量統一爲 512。同時,它可以整合所有通道的信息。接着是一個基本的殘差模塊,它可以優化特徵圖。此外,受 ResNet 啓發,該模塊還可以強化每一階段的識別能力。

Border Network

  • 在語義分割任務中,預測經常混淆外觀相似的不同類別,尤其當它們在空間上相近之時,因此需要加大特徵的差別。出於這一考慮,本文采用語義邊界指導特徵學習,同時應用顯式監督提取精確的語義邊界,使網絡學習類間差別能力強大的特徵,進而提出 Border Network 加大特徵的類間差別。Border Network 直接通過顯式語義邊界監督學習語義邊界,類似於語義邊界檢測任務。這使得語義邊界兩邊的特徵變得可區分。

  • 本文的工作需要語義邊界具有更多的語義含義。因此 Border Network 的設計是自下而上的。它可以同時從低級階段獲取精確的邊界信息和從高級階段獲取語義信息,從而消除一些缺乏語義信息的原始邊界。由此,高級階段的語義信息可以逐階段地優化低級階段的細節邊界信息。藉助傳統的圖像處理方法,比如 Canny,作者可以從語義分割的 groundtruth 中獲得網絡的監督信號。Border Network 主要關注分離邊界兩邊的類別的語義分割。要精確地提取語義邊界,需要兩邊的特徵更加可區分,而這正是作者的目的所在。

網絡結構

  • 作者使用預訓練的 ResNet 作爲基礎網絡。Smooth Network 通過在網絡頂部添加全局平均池化層以獲得最強的一致性;接着利用 CAB 改變通道的權重進一步提升一致性。同時,Border Network 通過明確的語義邊界監督獲得精確的語義邊界並使兩邊的特徵更易區分。由此,類內特徵更加一致,類間特徵更易區分。

  • 對於顯式的特徵優化,需要使用多層監督以獲取更佳性能,同時網絡也更容易訓練。Smooth Network 藉助 softmax loss 監督每一階段的上採樣輸出(全局平均池化層除外),而本文藉助 focal loss 監督 Border Network 的輸出。兩個子網絡在一起聯合訓練,其 loss 通過一個參數控制兩者的權重。

how much

實驗結果

  • 本文在兩個開源數據集 PASCAL VOC 2012 和 Cityscapes 上評估這一方法。數據集介紹、實現細節結果分析等從略,本文將直接給出 DFN 最終的評估結果,瞭解更多請參見原論文。

1547692726246

why (爲什麼好)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章