DeMoN:深度與運動估計的網絡學習

DeMoN:深度與運動估計的網絡學習

DeMoN: Depth and Motion Network for Learning Monocular Stereo

Taylor Guo, 2017年05月20日

摘要

本文將運動恢復結構問題表示爲一個深度學習問題。我們訓練了一個端到端的卷積神經網絡從連續的無約束的圖像對中計算深度和相機運動。這個架構由多個堆疊的編碼器-解碼器網絡組成,其核心部分作爲一個迭代網絡可以增強預測功能。這個網絡不僅可以估計深度和運動,還可以估計表面法線,圖像和可靠匹配間的光流。這個方法的關鍵部分是基於空間相關差異的訓練損失函數。與傳統的兩幀運動恢復結構方法相比,結果更精確、更魯棒。與通常的單圖像恢復深度網絡相反,DeMoN學習匹配的思路,因此可以更好地泛化那些在訓練階段沒有看到的結構。

1. 簡介

運動恢復結構是計算機視覺中經久不衰的工作。大部分現有的系統,尤其是最近的工作,都是由幾個連續的處理步驟組成的小心處理的工程管道流程。這些流程的一個基本模塊是從兩幅圖像中計算結構和運動。這一步驟當前的實現方式有其天然侷限。比如,通常在用稠密匹配搜索進行場景結構推導之前,從相機的運動估計開始。因此,對相機運動不正確的估計會導致錯誤的深度預測。還有,就是從用關鍵點檢測和描述子匹配中計算的稀疏匹配中估計相機運動。低階估計中通常都會出現異常點,無法在無紋理的區域工作。最後,所有的運動恢復結構方法都會在相機小範圍平移中失效。這是因爲在這些退化情況下無法獲得可以提供合理方案的先驗信息。

本文,我們第一次成功地訓練卷積神經網絡從一對無約束的圖像中估計深度和相機運動。這個方法在傳統的運動恢復結構流程處理運動和稠密深度估計問題中非常困難。我們無法針對大規模運動恢復結構提供一個基於深度學習方法的系統,但是兩幀情況是這個目標非常重要的第一步。長期來看,學習方法具有非常大的潛力,它天然地從各種潛在未知方案中整合各種方法:多視圖,輪廓,紋理,陰影,失焦,霧化。還有,關於物體和結構的強有力的先驗信息可以從數據中有效地學習,並在退化狀況下對問題進行歸一化處理;如圖6所示的案例。這種潛力在兩視圖場景中從我們的實驗結果中可以看到,學習方法明顯由於傳統方法。

這裏寫圖片描述
圖6:DeMon增加兩輸入圖像之間的基線獲得的定性結果。深度圖用左上角的參考圖片和下面第二排的圖像分別生成的。第一個輸出結果用兩個一樣的圖像作爲輸出得到的,這在傳統的運動恢復結構中是退化情況。

卷積神經網絡最近在單圖像深度估計中表現突出,如論文7,8,24。通過學習物體和它們外形,這些網絡可以在一些具有限制約束的評估場景中,比如室內和駕駛場景中,取得非常好的性能。但是,單圖像方法在對之前沒有看到過的圖像類型進行泛化時還是有很多問題。這是因爲它們沒有使用立體視覺。圖9就是一個例子,單圖像深度估計失敗,因爲網絡之前沒有看到過類似的結構。我們的網絡,學習使用了運動視差,沒有這種立體視覺約束,無法很好地泛化到新場景。

這裏寫圖片描述
圖9:DeMoN對之前沒有見過場景泛化能力的可視化效果。單幀方法在這種情況下遇到嚴重的問題,深度估計的點雲可視化中可以清晰看到上一個例子留下的拖影。

爲了利用運動視差,網絡必須放入兩個輸入圖像用於匹配。我們發現一個簡單的編碼器-解碼器網絡無法利用立體視覺:當網絡訓練用於從兩幅圖像中計算深度時,如果只用一張圖,它就會結束。單一圖像的深度計算是一條捷徑可以完成訓練目標而不用放兩張圖像用來匹配,再從這些匹配中推導相機運動和深度。
本文我們提供了一種方法來避免這種捷徑,用這個方法來獲得精確的深度地圖和相機運動估計。這個問題的關鍵是設計一個架構交替估計光流和相機運動、深度估計;如圖3所示。爲了處理光流,網絡必須使用兩張圖像。我們使用了FlowNet架構。我們的網絡架構由一個迭代部分與遞歸網絡類似,共享權重。與通常在實踐中訓練遞歸網絡時進行展開不同,我們增加了對當前minibatch追加前一次訓練迭代結果的預測。這種訓練方法可以節省大量內存,在訓練過程中包含更多迭代結果。本文的另一個技術貢獻是一個特別的梯度損失函數可以處理運動恢復結構中的尺度模糊問題。網絡是在Kinect相機拍的真實圖像上的一個混合集上進行訓練的,包括SUN3D數據集,和一個我們爲這個工作渲染的一個場景。

2. 相關工作

從一對圖像中估計深度和運動的工作可以追溯到Longuet-Higgins的論文25兩射影重構結構。3D幾何是一個傳統領域,在教材多視圖幾何和3維計算機視覺中有涵蓋。最新的系統可以做大規模場景包括整個城市的場景重建。它們是由大量方法組成的流程,

3. 網絡架構

這裏寫圖片描述
圖2:網絡架構圖。DeMoN使用一個圖像對作爲輸入,預測第一個圖像的深度圖和第二個相機的相對位姿。網絡由一系列編碼器-解碼器網絡組成,在光流,深度圖,自身位姿估計上迭代;圖3是詳細結構。優化後的網絡可以增強最終深度圖的分辨率。

這裏寫圖片描述
圖3:提升和迭代網絡中的編碼器-解碼器的結構框圖表示。灰色字體輸入部分只用於迭代網絡。第一個編碼器-解碼器估計光流和它在圖像對和前一估計的置信度。第二個編碼器-解碼器估計深度圖和表面法線。在編碼器後面增加全連接網絡估計相機運動r,t和深度尺度因子s。尺度因子s是深度相對於相機運動的尺度。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章