來自百度團隊的KITTI立體匹配霸榜論文詳解

導讀

受衆目標:

  • 對立體匹配任務感興趣並有一定深度學習基礎的相關研究者。

論文信息:

  • 名稱:“Learning Depth with Convolutional Spatial Propagation Network”
  • 作者:來自百度團隊。”Cheng Xinjing,Peng Wang和Ruigang Y ang,IEEE高級成員。

介紹:

該團隊提出卷積空間傳播網絡(CSPN),簡稱CSPN,用於深度估計和立體匹配任務。CSPN通過遞歸卷積操作傳播,卷積網絡可以很好地學習相鄰像素之間的關係。與空間傳播網絡(SPN)相比,CSPN在實際應用中要快2~5倍。本研究使用二維CSPN模組在網路中嵌入稀疏的深度樣本,並應用三維卷積模組和空間金字塔共用模組。實驗結果表明,這些模塊有助於提高系統性能。在立體匹配任務中,該方法目前在2012年和2015年的KITTI基準數據集測試中排名第一。本文也只介紹了應用於立體匹配任務時的相關信息。下面將進一步介紹CSPN的網絡結構和實驗結果。

M2S_CSPN Network

  • 整體網絡架構圖

可通過3D CSPN(彩色最佳視圖)通過變換內核預測進行立體深度估計。

將CSPN應用於立體匹配任務時,一般採用類似PSMNet的網絡結構。如上圖所示,首先將立體圖像對輸入到具有共享權重的兩個cnn中,生成相應的特徵映射。空間池模塊用於連接子區域的空間表示。其次,利用得到的兩個特徵映射構造4D代價體。最後,將其發送到3D模塊進行視差迴歸。

與PSMNet相比,本文所做的主要改進是用本文提出的CSPF和3dcpn代替PSMNet中的空間池模塊和3D模塊。下圖顯示了替換的3D模塊,其中下採樣率寫入每個小塊的右上角。紅色、綠色和藍色箭頭表示跳過連接。

我們的3D模塊的詳細信息(彩色最佳視圖)。 下採樣率w.r.t. 圖像大小顯示在每個塊的右上角,例如4x表示要素圖的大小爲h4×w4,其中h×w是圖像大小。 紅色,綠色和藍色箭頭是跳過連接,表示在特定位置進行功能串聯,與PSMNet相同

  • 模塊簡介
  1. CSPN模塊及其擴展
  2. 作爲網絡的目標,在引入CSPN模塊之前,首先引入所謂的親和矩陣。漢語可以翻譯成親和力矩陣、相似性矩陣或相似性矩陣,用來確定空間中的兩點是相似的性矩陣。在計算機視覺中,它指的是一個加權圖,它把每個像素作爲一個點,用一條邊連接兩個點。其中,兩邊的權重反映了不同計算機任務的相似性。下圖顯示了一個4點5邊的無向圖。每條邊的權重爲1。

  1. 可以用4×5的親和矩陣來描述,它表示點和邊之間的關係。

  1. (a)SPN,(b)2D CPSN和(c)3D CSPN中的傳播過程之間的比較。 注意:對於3D CSPN,虛線體積表示4D體積中特徵通道的一個切片,尺寸爲d×h×w×c
  2. 上下文金字塔模塊 (context pyramid module)

  1. 上下文金字塔模塊的不同結構。 (a)PSMNet應用的空間金字塔池(SPP)模塊[89](b)我們的卷積SPP(CSPP)模塊使用具有不同內核大小和跨度的2D CSPN。 (c)使用3D CSPN的卷積特徵融合(CFF)。 (d)我們最終的組合SPP模塊,即卷積空間金字塔融合(CSPF)

實驗及結果

  • 訓練細節

實驗中使用的網絡基礎是PSMNet,採用相同的訓練策略。具體如下:

採用Adam優化器,,;

batch size=16,在8個Nvidia P40 GPU上進行訓練;

訓練時將圖像裁剪爲512*512大小;

首先在場景流數據集上訓練10個階段,學習率爲0.001。後來,該模型針對KITTI立體聲數據集進行了微調。共訓練600個階段,學習率由每200個階段0.001下降20%。最後,只計算基蒂立體數據中具有真值的稀疏點。

  • 數據集:

共有三個數據集:

場景流、KITTI Stereo 2012和KITTI 2015,下面將簡要介紹這些數據集。

場景流數據集是一個大規模的數據集,包含35454對經過訓練的立體圖像對和4370對經過測試的立體圖像對,像素分辨率爲960540,由不同的合成序列渲染而成。

KITTI Stereo 2012數據集是從移動的汽車上獲取的街景數據集。它包含194個訓練立體圖像對和195個測試立體圖像對。圖像分辨率爲1240*376。地面真值通過360度V elodyne HDL64。獲得激光掃描儀。本文將訓練數據集進一步劃分爲160個測試數據和34個驗證數據,並以彩色圖像作爲輸入。

與KITTI 2012相比,KITTI 2015包括200對訓練立體聲對和200對測試立體聲對。分辨率與KITTI 2012相同,但包含動態場景。KITTI 2015數據集進一步劃分爲160個訓練和40個經驗證的立體聲對。

  • 評價指標

不同的數據集有不同的評價指標。場景流的評估指數使用EPE(端點誤差),即KITTI 2012和KITTI 2015使用錯誤像素的百分比進行評估。具體地,當像素的視差誤差大於某一閾值t時,將其視爲錯誤像素。然後計算出在輸出Noc(非遮擋)區域和輸出所有區域中錯誤像素的比例。對於KITTI 2012數據集,閾值可以是2、3、4、5,對於KITTI 2015數據集,閾值t爲3,這比KITTI 2012更嚴格。此外,對立體對的左圖像和右圖像進行匹配評估。

  • 消融研究

基於場景流數據對網絡模塊進行了燒蝕研究,驗證了網絡模塊的有效性

  1. 3D模塊測試結果
  2. 爲了證明3D-CSPN相對於2D-CSPN的優勢,首先使用2D-CSPN進行深度細化,將EPE從1.119降低到0.992。用3D-CSPN代替2D-CSPN後,EPE進一步降低到0.971。上表表明,這兩個3D CSPN將取得最好的效果。最後一行是將3D模塊與增強的ASPP模塊組合時,將誤差降低到基線的30%左右。

  1. CSPF模塊測試結果

  1. 評估用於增強SPP模塊的不同組件。對於所有模塊都被替換的情況,採用“3dcpn-ds”作爲3D模塊,ds是視差空間的縮寫CSPP“是指在空間池網格上使用2D CSPN,將EPE誤差從0.971降低到0.954。另一種具有擴展卷積的空間池策略,即atrus-SPP,簡稱ASPP,具有與SPP相似的效果。如“ACSPP(atrus-CSPP)”行所示,當2D-CSPN與ASPP結合使用時,誤差比SPP(0.954)小得多(0.902)。在“卷積特徵融合”(CFF)中,利用所提出的融合策略對空間金字塔所彙集的特徵進行融合,EPE誤差從0.954降低到0.905。最後,將ACSPP與CFF(即ACSPF)相結合,得到了最佳的性能。下圖是從場景流數據集進行網絡訓練後在KITTI數據集上驗證的輸出結果的一部分。可以看出,預測結果與真實值非常接近。網絡在學習並傳播親和矩陣後,更好地利用了上下文信息,顯著提高了效果。

  1. 通過在模型中學習親和度矩陣並將其傳播以更好地利用上下文,我們可以應對更具挑戰性的案例。顯着改善的區域以綠色虛線框突出顯示(彩色最佳視圖)。
  2. 網絡在Scene Flow, KITTI 2012和KITTI 2015數據集上的結果:

結論

論文或源碼數據集下載地址:關注“圖像算法”wx公衆號 回覆“3D CSPN”,在本文中,我們提出了一個有效的模塊,即卷積空間傳播網絡(CSPN),用於兩個深度估計任務,即深度完成和立體深度估計。CSPN可以與任何類型的深度估計神經網絡共同學習,並且可以看作是線性擴散過程,可以保證模型的穩定性。與以前的空間傳播網絡相比,CSPN的效率更高(在實踐中,尤其是圖像較大時,速度要快2-5倍),並且在深度完成方面更準確(提高了30%以上)。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章