深度圖補全

注:本文轉載自:計算機視覺life公衆號

有什麼用?

微軟2010年發佈了消費級RGB-D(RGB+depth)相機Kinect1,此後涌現了大量基於RGB-D相機的研究工作,比如用RGB-D相機來進行室內三維重建,比較有名的是KinectFusion、Kintinuous,ElasticFusion,InfiniTAM,BundleFusion等。想要了解這部分內容可以參考《計算機視覺方向簡介 | 深度相機室內實時稠密三維重建》。此外,RGB-D相機還大量用於物體及人臉的三維建模、自動駕駛、增強現實、三維打印等。


目前主流的RGB-D相機有微軟的Kinect系列,Intel的realsense系列,structure sensor(需結合iPad使用)等。關於主流的RGB-D相機的詳細對比可以參考《深度相機哪家強?附詳細參數對比清單》。關於RGB-D相機更詳細的介紹可以查看公衆號裏 深度相機系列。去年iPhone X前置結構光深度相機(depth)面世後,更是激發了手機產業鏈深度相機的熱潮,目前小米、OPPO、Vivo等手機大廠都在積極推動深度相機在手機上的應用。


雖然RGB-D相機前景無限,但是受制於物理硬件的限制,目前深度相機輸出的depth圖還有很多問題,比如對於光滑物體表面反射、半/透明物體、深色物體、超出量程等都會造成深度圖缺失。而且很多深度相機是大片的深度值缺失,這對於算法工程師來說非常頭疼。


因此,深度圖補全一直是一個非常有用的研究方向,之前的文獻大都只能補全比較小範圍的深度缺失,對於較大深度值缺失的情況無能無力,本文介紹的是2018 CVPR 最新的一項研究deep depth completion,不受RGB-D相機類型的限制,只需要輸入一張RGB加一張depth圖,可以補全任意形式深度圖的缺失。對於算法工程師來說真的是喜大普奔啊,目前主要針對的是室內環境。


什麼原理?

Deep depth completion算法流程如下,其輸入是RGB-D相機拍攝的一張RGB圖像和對應的深度圖,然後根據分別訓練好的兩個網絡(一個是針對RGB圖表面法線的深度學習網絡,一個是針對物體邊緣遮擋的深度學習網絡),預測該彩色圖像中所有平面的表面法線和物體邊緣遮擋。最後用深度圖作爲正則化,求解一個全局線性優化問題,最終得到補全的深度圖。


一切看起來順理成章,但是,做深度學習的小夥伴們紛紛舉起了小手,開始提問:我的訓練集怎麼搞?我去哪裏找大量的高精度已經補全的深度圖?


的確,這是個大問題,消費級深度相機拍攝的深度圖本身就是缺失的,沒辦法作爲深度圖的groundtruth,但是現有的RGB-D數據集幾乎都是基於消費級深度相機的。而使用高精度的深度相機不僅設備費用成本高,時間成本也非常高,give up吧。


這裏要誇一下本文的作者,聰明又勤奮,還樂於奉獻。他們之間提供了一個已經補全好深度圖的RGB-D數據集,包含105,432幅RGB-D圖,而且給你都對齊了的。那他們是怎麼做到的?


主要是因爲他們聰明。對,你沒看錯!他們利用現有的消費級RGB-D相機拍攝的數據集(Matterport3D、ScanNet、SUN3D、SceneNN)先進行稠密的三維重建,然後再進行優化和渲染。雖然單一視角的深度圖可能會有因爲不同原因引起的缺失,但是經過多個不同視角的重建和優化,這些缺失的地方都被填補了。然後將其深度結果反投影回到輸入深度圖。最後得到的深度圖就是groundtruth啦,簡直完美!省時省力省錢,還順帶學習了稠密三維重建,就是這麼棒!看看下面的圖,還是比較形象的,黃色代表不同視點的圖,紅色是當前視點渲染後的深度圖。


效果怎麼樣?

親自測試,效果槓槓滴!具體的量化比較就不放了,可以查看論文,目前效果是該領域最好的,我這裏只放幾張比較直觀的視覺效果的比較結果。
首先是和聯合雙邊濾波的inpainting方法進行比較,如下所示,可以明顯看出邊緣信息保存的很好,噪點也很少。


再看一下和深度神經網絡深度估計方法的對比,如下圖所示。不僅深度值更準確,大尺度的幾何結構也更準確。

來看一下點雲結果對比吧,原始的RGB-D生成的點雲結果如下:

經過深度圖補全後生成的點雲結果如下:


運行速度怎麼樣?


學術界對運行速度不是特別關注,但是產業界就是死死的盯住運行速度不放,因爲這直接關係到能否直接用在嵌入式設備上。


他的運行速度是這樣的:

實驗環境:對於一幅320x256的RGB-D輸入圖來說,用NVIDIA TITAN X GPU預測表面法線和邊界遮擋需要0.3s。在Intel Xeon 2.4GHz CPU上求解線性方程需要1.5秒。


雖然慢了點,但是也給算法優化的同志們留了一個不大不小的挑戰,不是嗎?


有什麼參考資料?

良心的作者不僅給了數據集,還開源了代碼,還給了訓練好了結果,如此良心負責人的作者必須給個大大的點贊!


項目地址:

deepcompletion.cs.princeton.edu


開源代碼地址:

github.com/yindaz/DeepC


溫馨提示:本文中提到的論文及相關資料我都給你準備好了,關注公衆號 計算機視覺life,菜單欄回覆“補全”即可獲取。


相關閱讀

計算機視覺方向簡介 | 深度相機室內實時稠密三維重建

計算機視覺方向簡介 | 從全景圖恢復三維結構

計算機視覺方向簡介 | 單目微運動生成深度圖

計算機視覺方向簡介 | 陣列相機立體全景拼接

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章