點擊上方“3D視覺工坊”,選擇“星標”
乾貨第一時間送達
作者:紅薯好吃
https://zhuanlan.zhihu.com/p/86151544
本文僅做學術分享,如有侵權,請聯繫刪除。
論文題目:StereoDRNet: Dilated Residual Stereo Net
論文摘要:作者提出一種基於CNN的雙目深度估計系統,通過雙目預測到的深度圖進行體積融合,從而得到場景的三維重建。作者提出的深度優化結構,產生視角連續的視差圖並預測遮擋部分,這些都將幫助fusion系統進行幾何連續的三維重建。在cost filtering部分作者利用3D空洞卷積獲得了更好的濾波效果。該模型在KITTI2012,KITTI2015,ETH3D均達到SOTA。最後,作者證明了他們的系統產生了高質量的3D場景重建效果。
方法概括:
特徵提取
採用孿生網絡提取左右目圖片特徵,產生的特徵圖size爲原圖的1/4,通道數爲32.在特徵聚合這一塊作者發現在這個任務中使用Vortex Pooling的效果優於SPP,故使用Vortex Pooling,如圖1所示。
圖1 Vortex Pooling architecture
成本項濾波
與PSM-Net的Stacked hourglass有些相似,對比PSM對應結構,作者的創新點在於使用了1,2,4三種系數的空洞卷積平行的結構。
圖2 Proposed dilated cost filtering approach with residual connections
視差迴歸
模型的視差計算如公式(1)所示,加權候選視差。
損失函數採用Huber loss ,如公式(2)所示,
視差迴歸部分的損失函數,加權了成本項濾波輸出的3個視差的結果,如公式(3)所示,
視差優化(劃重點!!):
視差優化部分,通過引入重建誤差圖,幾何一致誤差圖,和原圖以及Occlusion損失的信息,來進一步優化視差,流程圖如圖3所示:
圖3
重建誤差圖計算如公式(4)所示:
幾何一致性誤差圖如公式(5)所示:
遮擋區域損失如公式(6)所示:
refinement後的視差損失公式(7)
最後,總的損失函數如公式(8)所示,其中 爲第一步的視差損失, 爲視差優化後的視差損失, 遮擋預測的損失。
實驗結果:
SceneFlow Dataset結果如圖4所示,可以看到作者提出的模型,相比PSM能夠更好恢復細節信息,同時在遮擋區域中顯示較低的誤差。
圖4
從下表中可以看到,在KITTI2012和KITTI2015數據集的在線測試中,作者提出的模型,均達到SOTA。
最後,作者利用了StereoDRNet的深度圖,進行三維重建實驗。從下圖可以看到,StereoDRNet三維重建後的精度高於PSMNET,同時在黃色box區域取得了相比ground truth 更好的結果。