【ICCV 2019】Gated-SCNN: Gated Shape CNNs for Semantic Segmentation

這篇論文是2019年語義分割領域的最新成果,採用雙流CNN和ASPP進行語義分割處理,在細小的物體上有着很大的提升。

原文鏈接:https://arxiv.org/abs/1907.05740

項目:https://nv-tlabs.github.io/GSCNN/

Github:https://github.com/nv-tlabs/GSCNN

Abstract

當前最先進的深度卷積神經網絡的圖像分割將顏色、形狀和紋理信息都放在一起處理。由於它們包含與識別有關的非常不同類型的信息導致效果並不理想。在這裏我們提出一種雙流CNN用於語義分割,將處理形狀信息的單獨出來作爲一個流shape stream,與經典流classical stream平行處理。這個網絡的關鍵是連接兩個流的中間層是一種新的門類型。具體來說,我們使用經典流中的高級激活來對形狀流中的低層激活進行門化,從而有效地消除噪聲並幫助shape stream聚焦於處理相關的邊界相關信息。實驗證明在更瘦更小的物體上顯著地提升了物體和周圍的形狀預測,並在Cityscapes數據集上採用mIoU和F-score指標評價該網絡,在目前最先進的網絡上高出2%和4%。項目地址:https://nv-tlabs.github.io/GSCNN/

Introduction

語義分割在計算機視覺領域的應用範圍很廣,在幾乎所有的分割測試中CNN都極大地提升了分割的準確率。將用於分類的CNN用於分割的一種標準方法是將全連接層轉換爲卷積層,如FCN。然而,這種操作也有着明顯的缺點,比如會損失輸出的分辨率。DeepLab等網絡提出了一些方法恢復輸出的分辨率。

在DCNN中同時處理顏色、形狀和紋理信息有着明顯的缺點,於是提出一種雙流CNN結構,其中一個支流專門用於處理形狀信息,叫做shape stream,而另一流則爲經典的CNN流,即classical stream。兩個支流在最頂層之前不做任何信息的融合。

這個網絡的關鍵是兩個直流在交互的時候採用了一種新的門類型,利用包含在經典流中的高級信息來在其非常早期的處理階段對形狀流中的激活進行降噪處理。這樣做使得形狀流能專注於處理形狀信息,並能在完整的分辨率上操作。爲了實現形狀信息被定向到所需的流,這裏採用語義邊界損失來監督它。文章進一步開發了一種新的損失函數,它擬合預測的結果與GT語義邊界對齊。新架構網絡稱爲GSCNN。

網絡的classical stream能夠被任何經典CNN替換,在論文中嘗試了ResNet-50,ResNet-101和WideResNet。實驗證明該網絡比最先進的DeepLab V3+的mIoU高出1.5%,F-boundary-score高出4%,並在細小物體的預測上mIoU有着7%的提升。論文進一步評價了距離相機不同遠近的物體的性能,在最遠的物體上有6%的提升。

Related Work

語義分割:一些先進的語義分割網絡的發展都是基於CNN的,後面闡述了CNN的發展過程。

多任務學習:本文的主要目標不是訓練多任務網絡,而是實施一種利用分割和邊界預測任務之間的二元性的結構化表示。

門卷積:源自語言模型,這裏借鑑到卷積中。

Gated Shape CNN

這一部分主要介紹網絡的結構。如結構圖所示,網絡的兩個支流的後面融合模塊集成。第一支流regular stream(即上文中classical stream)就是標準的CNN分割網絡,第二支流shape stream用來處理語義邊界的形狀信息。通過仔細設計的門卷積層(GCL)和局部監督,強制成形流只處理與邊界有關的信息。

Regular stream:可以採用由VGG/ResNet等改編的全卷積網絡,論文中採用的是類ResNet網絡。

Shape stream:通過多個殘差塊和GCL交叉處理。

Fusion module:採用ASPP融合兩個支流,允許我們保存多尺度上下文信息,並且被證明是現有技術語義分割網絡中的基本組件。

Experiment Results

採用DeepLab V3+作爲基準,GSCNN的主體採用ResNet-50、ResNet-101和WideResNet,數據集採用Cityscapes,評價指標採用mIoU(用於評價預測區域的準確率)、F-score(用於評價邊界)和基於距離的mIoU。

定性評價:

在Cityscapes數據集test set上的分割結果
在Cityscapes test set上的分割效果
在Cityscapes test set上預測的高質量邊界

定量評價:

表1中GSCNN與LRR/DeepLab V2/DeepLab V3+等網絡的分割性能進行對比,可以看到GSCNN在mIoU性能上要高出2%左右,特別是細小物體上有顯著的提升,如traffic signs, traffic lights, poles, motorcycles等。

表2中GSCNN與DeepLab V3+的邊界預測準確率F-score進行對比,閾值分別設置爲12px~3px,在最嚴格的的要求上有着4%的提升。

不同裁剪因子的基於距離的評價

上圖展示了不同距離的mIoU評價,距離越遠(0~400),其mIoU提升的效果越高,在距離400左右mIoU提升了接近6%。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章