語義分割【論文解讀】新思路:幾何感知蒸餾 CVPR-2019

文章轉自:知乎   原文鏈接:https://zhuanlan.zhihu.com/p/146165099

作者:python小宗師

簡介

語義分割是計算機視覺中一個基本而又具有挑戰性的問題。通過語義分割獲得更好的場景,有利於許多應用程序,如機器人,視覺SLAM和虛擬/增強現實。與基於RGB圖像的方法相比,基於深度(RGB-D)的RGB方法可以利用來自場景的額外的三維幾何信息,有效地解決單一2D顯示方法所面臨的挑戰,然而,大多數已有的方法都需要精確的深度圖作爲場景分割的輸入,這嚴重限制了它們的應用。現有的數據庫RGB-D數據集 i.e NYU-v2, SUN-RGBD 的深度圖/視差圖不夠精確,準確來說有很大缺陷,例如中心目標標籤像素的缺失[0,0,0],導致最終預測的結果失敗;

在本文中,提出在挖掘有用的深度域信息的同時,通過提取幾何感知嵌入來聯合推斷語義和深度信息,以消除這種強約束。此外,通過提出的幾何感知傳播框架和多個跳躍特徵融合塊,利用所學的嵌入知識來提高語義分割的質量。通過將單任務預測網絡解耦爲語義分割和幾何嵌入學習兩個聯合任務,並結合提出的信息傳播和特徵融合架構,在公開數據及上取得了 state-of-the-art結果。

工作描述:

在這項工作中,我們提出通過學習密集的深度嵌入的聯合推理框架來提取/提取幾何感知的信息,用於單個RGB圖像的語義分割。該模型沒有直接採用深度信息作爲輸入,而是將深度圖嵌入,與RGB輸入一起提取,從而指導語義分割。在該框架中,通過提出的幾何感知傳播塊將學習到的嵌入信息與二維外觀特徵融合,利用幾何親和性來指導語義傳播。此外,發現分割結果往往缺乏細節,特別是近物體邊界。在特徵空間中提出了一種增量的跨尺度融合方案,從而進一步豐富了結構細節。一些對象可能有非常相似的2D外觀,不能很好地識別。該模型能夠很好地將三維幾何信息嵌入到所學特徵中,使預測具有語義一致性和幾何一致性。

 

 

如圖所示,僅根據二維特徵很難對枕頭進行分割,而通過學習嵌入,由於枕頭的三維幾何信息與周圍環境不同,可以很好地進行分類。牀的形狀也受益於學習的嵌入,它揭示了提煉的幾何信息的有效性。我們的方法的關鍵思想是預測語義標籤從單一的RGB圖像,同時考慮三維幾何信息隱含。

本文的主要貢獻歸納爲:

1)提出了一種新的方法,通過隱式深度推斷提取幾何感知嵌入,有效地指導RGB輸入場景分割。

2)該聯合框架實現了深度標籤和語義標籤之間的信息融合,並具有端到端可訓練性。

3)模型在NYU-Dv2和SUN RGBD的室內語義分割數據集方面達到了最先進的性能。

3. 幾何感知蒸餾

提出了幾何感知精餾的框架,以隱式地提高分割性能。整個網絡通過一個聯合目標函數進行端到端的訓練。

3.1 學習深度感知嵌入

這項工作的目標是利用幾何(深度)信息進行語義分割,而不需要額外的深度圖作爲輸入。一種直觀的方法是首先從輸入的RGB圖像中預測深度圖,然後將深度信息併入傳統的RGB- d分割管道。本文建議從RGB圖像中學習一種深度感知嵌入方法,並同時進行語義分割,而不是採用這種順序的解決方案。將深度感知嵌入定義爲在語義層次上對深度信息和像素親和力進行編碼的表示。

給定一個RGB圖像像素I,深度感知嵌入是從一個可學習的投影函數g(I),它將RGB像素轉換到一個高維空間,嵌入相應的特徵。然後將嵌入學習建模爲一個優化問題:

 

 

其中E(x,x)爲數據擬合項,D爲提供需要通過投影嵌入的深度信息的GT。第二項s(x) = E(g (x),x)是語義項,目的是嵌入語義信息,n是像素的總數。

爲了得到一個好的投影g,用一個深度神經網絡模型來參數化它,通過反向傳播來優化嵌入。因此,g被定義爲f,其中f是一個深度CNN。然後將優化重新表述爲:

 

 

3.2 幾何感知的導引傳播---GAP

在學習了嵌入後,將其應用於語義分割的即時驗證。提出一種幾何感知傳播(GAP)方法來利用已學習的嵌入作爲指導。通過這種方式,深度嵌入作爲一種親和引導,提供幾何信息,以便更好地組合這些特徵。給定嵌入空間中的一個點i與其相鄰點j,對於用於預測語義標籤的分數圖中位置j對應的特徵點pj,其在位置i的傳播輸出q i可表示爲:

 

 

其中Gem = f(I)爲學習的深度嵌入,W ij爲幾何指導G em導出的傳播權值。由於W ij表示嵌入空間的幾何親和力,這裏我們將其定義爲解耦嵌入的點積爲:

 

 

兩個參數將原始嵌入解耦爲兩個子嵌入。爲了應對傳播過程中維數的變化,進一步利用映射算法將語義特徵一致地投影到嵌入空間中。特別是傳播權由幾個卷積單元設計,這些單元可以通過反向傳播自動學習。特別地,將原始語義特徵加入到傳播結果中,避免了整個傳播過程的中斷。將所提出的間隙塊定義爲:

 

 

3.3 模型結構

通過引導傳播和金字塔特徵融合提取幾何感知信息,進行精確分割。如下圖所示,該網絡由共享骨幹網絡、語義分割分支、深度嵌入分支、感知幾何傳播塊、跳過金字塔融合塊五部分組成。所提出的網絡在全球範圍內遵循一種編解碼器結構,具有多任務預測。該編碼器的網絡權值由兩種任務共享。在解碼器部分,上分支通過預測深度圖來預測語義標籤,下分支通過預測深度圖來學習深度嵌入。

 

 

將深度分支(通過總和)傳播到各個分支以提供多尺度深度引導。在解碼器中,還傳播不同的尺度特徵,以豐富最後一層的輸出。解碼器的每一層都是上採樣,然後是卷積。在語義分支的末端應用幾何感知傳播塊(GAP),以學習到的嵌入作爲指導,提高語義特徵的質量。通過skip pyramid fusion block (SPF),結合來自骨幹網的多級特徵圖,進一步細化蒸餾後的輸出。最後使用來自底部SPF塊的得分圖進行語義標籤的預測。對最右邊的特徵和每一級SPF側輸出進行語義監控。相應的深度映射作爲學習嵌入的超視覺。整個網絡由一個聯合目標函數端到端進行訓練(具體見目標函數部分)。

 

Geometry-Aware傳播

幾何感知傳播是通過幾個卷積層、批處理歸一化和元素處理來實現的。詳細結構如圖下所示。深度嵌入首先被髮送到兩個conv單元,以實現幾何親和力。然後以幾何親和力爲導向,與語義特徵進行融合。最後,將原始語義特徵與融合的信息結合在一起輸出,如圖3中的藍色塊所示。整個傳播主體獲得語義特徵的維度。在不知道深層組合策略的情況下,將深度特徵和顏色特徵融合在一起,深度信息指導特徵融合。

 

 

 

Skip Pyramid Fusion

跳連金字塔融合。當圖像通過編碼器和解碼器時,可能會丟失很多細節信息,試最終的語義特徵圖中豐富和恢復更多的細節,如下所示。靈感來自特徵金字塔網絡的目標檢測,利用多層次的特徵從編碼器骨幹通過跳躍連接。由於編碼器和解碼器之間的特徵空間是最稀疏的、細節最少的,解碼器最終恢復的特徵圖幾乎不包含有用的細節。因此,向編碼器部分尋求更多的信息。skip - pyramid fusion (SPF) block的結構如圖下所示。第一個SPF(spf1)將提取出來的特徵作爲輸入,經過1×1卷積,適當調整大小後與來自編碼器骨幹的特徵圖進行拼接。經過3×3卷積後,組合的特徵被傳播到另一個SPF。同時,每個SPF預測一個側輸出用於語義分割。

 

 

 

3.4損失函數

爲了緩解數據不平衡問題,把用於對象檢測的丟失函數擴展到義分割任務中,如下所示:

 

 

除了語義監督外,深度感知嵌入的學習還需要深度領域的監督。根據最先進的算法進行深度估計,我們使用berHu損失作爲我們的深度監督定義爲:

 

 

最後結合中間層語義預測(k層聚合)的損失Lsk (spf k處的Ls),最終的聯合損失函數爲:

 

 

4 結果對比

在NYU-Dv2數據集上的結果比較如下:

 

 

 

在NYU-Dv2數據集上的結果比較如下:

 

 

 

各個類別分類準確性比較如下:

 

 

Ablation Study的結果

 

 

5 分割結果圖

 

 

 

6 結論

充分利用三維幾何信息的深度感知嵌入隱式提取的單一RGB圖像語義分割。通過解耦共享骨幹網絡,共同推導了幾何精餾和動態標籤預測。通過幾何感知的傳播結構,將學習到的嵌入作爲改進語義特徵的指導。通過跳過金字塔融合塊,將提取出來的特徵進一步反饋到共享主幹中,與多層次的上下文信息融合。模型僅以一個RGB圖像作爲輸入,就可以同時獲取二維外觀和三維幾何信息。在室內RGB-D語義分割的實驗結果表明,模型取得了較先進的方法更好的性能。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章