GeoNet:用於聯合深度和表面法線估計的幾何神經網絡(論文2018)

GeoNet: Geometric Neural Network for Joint Depth and Surface Normal Estimation

作者:Xiaojuan Qi、Renjie Liao、Zhengzhe Liu、Raquel Urtasun、Jiaya Jia

摘要:

本文提出了幾何神經網絡(GeoNet)聯合預測單個圖像的深度和曲面法向量圖,在兩條區幹CNN的基礎上,我們的GeoNet通過新的深度到法線和法線到深度網絡,整合了深度和曲面法線之間的幾何關係,深度到法線網絡利用了曲面法線深度的最小二乘解,並利用殘差模塊提高了其質量。而法線深度網絡則是通過一個核迴歸模塊,根據曲面法線的約束條件,對深度圖進行細化,而核迴歸模塊沒有參數可學習。這兩個網絡加強了底層模型對深度和曲面法線的有效預測,以獲得較高的一致性和相應的精度。我們在NYU v2數據集上的實驗驗證了我們的GeoNet能夠預測幾何一致的深度和法線圖。它在曲面法線估計方面取得了很好的性能,和目前的深度估計方向相當。

一、介紹

我們研究了從單個RGB圖像中聯合估計深度和曲面法線的重要問題。2.5維幾何信息有助於實現各種計算機視覺任務,包括運動結構(SfM)、三維重建、姿態估計、目標識別和場景分類。

在單張圖像中存在大量的深度估計方法[25,19,7,21,31,24,16,20,34,18]和曲面法線估計[7,33,3,2,18]。其中,基於深度神經網絡的方法取得了很希望的效果。

挑戰。儘管在這領域取得了很大的進展,但我們注意到,以前的方法大多數是獨立於處理深度和法線估計的,這可能會使它們的預測不一致,而不考慮緊密的基礎幾何關係。例如,如在[32]所示,預測的深度圖在平面區域可能發生畸變。因此,如果考慮到曲面法線在平面區域中變化不大這一事實,問這個問題很有趣的。這思想促使我們設計新的模型,這些模型正是基於上述簡單事實,但潛在地顯示了這一領域的一個重要方向,利用深度和曲面法線之間不可避免的幾何關係來進行更精確的估計。

我們用圖1這個例子去說明這常識關係。一方面,曲面法線是由三維點的局部曲面切平面決定的,可由深度來估計;另一方面,深度是由曲面法線確定的,而局部曲面切平面來約束的。雖然它看起來很簡單,但設計神經網絡來正確利用這些幾何條件並非易事。
在這裏插入圖片描述

我們注意到,如[25,4]所述,通過手工製作的特徵將幾何關係融入傳統模型已經是可行的。然而,在神經網絡中還沒有很多的研究來實現它。一種可能的設計是建立卷積神經網絡(CNN),直接從數據中學習這種幾何關係。然而,我們在第 4.2 節中的實驗表明,即使使用常見的成功CNN 架構,如VGG-16,我們也無法從深度獲得任何合理的正常結果,甚至接近。研究發現,在給定精心調整的結構和超參數的情況下,訓練總是收斂到很差的局部極小值。

這些廣泛的實驗表明,單前的分類CNN體系結構不具備從數據中學習種幾何關係的必要能力。這一發現促使我們設計專門的架構,明確地結構和實施幾何條件。
我們的貢獻:本文提出用幾何神經網絡(GeoNet)在一個統一的系統中推斷深度和曲面法線。GeoNet的結構包括一個雙流CNN,它分別從一副圖像中預測深度和曲面法線。這兩個網絡管理這兩個流來建模深度到法線和法線到深度的映射

特別是,基於最小二乘法和殘差模型的深度到法線網絡有效地捕捉了幾何關係。法線到深度網絡通過內核迴歸模塊更新深度估計;它不需要任何應該學習的參數。利用這些耦合網絡,我們的GeoNet將強制執行深度和曲面法線的最終預測,以遵循基本條件。此外,這兩個網絡計算效率高,因爲它們沒有許多參數可供學習。
在NYU v2的數據上的實驗顯表明,我們的GeoNet在大多數評估指標方面達到了最新的性能,並且比其他備選方案更有效。

二、相關工作

2.5維幾何估計是近年來研究的熱點。以前的工作大致可以分爲兩類。

傳統的方法沒有使用深層神經網絡,主要集中於挖掘底層圖像線索和幾何約束。例如,[30]的方法通過識別圖像中顯現的結構來估計場景的平均深度,並推斷場景的尺度。基於馬爾剋夫隨機場(MRF),Saxena等人。[25]根據單個圖像的手工特徵預測圖像深度圖。[12]中使用消失點和消失線來恢復曲面佈局。

另外,Liu等人。[19]利用語義分割的預測標籤來合併幾何約束。文[15]提出了一種基於尺度的分類器來聯合學習語義分割和深度估計。Shi等人。[27]表明估計離焦模糊有利於恢復深度圖。在文獻[4]中,我們形成了一個統一的優化問題,其目的是從陰影中恢復場景的內在屬性,如形狀、照明和反射。基於特殊設計的特徵,上述方法直接結合了幾何約束。然而,它們的模型容量和通用性對於處理不同類型的圖像可能不盡如人意。

近年來,隨着深度學習的深入,人們提出了許多方法來進行單圖像深度或/和表面法向預測。Eigen等人。[8]將圖像輸入CNNs,直接預測深度圖。Shelhamer等人。[26]提出了一種基於完全卷積網絡(FCN)的方法來學習單個圖像的完全內稟分解,其中包括作爲第一個中間步驟推斷深度圖。在文獻[7]中,深度/法向預測採用了從粗到細的統一層次網絡。

用於預測單圖像表面法向,Wang等人。[33]將本地、全局和消失點信息合併到網絡架構設計中。文獻[20]在CNN的基礎上建立了一個連續條件隨機場(CRF),用於平滑基於超像素的深度預測。還有一種跳連結構[3]用於融合不同層的隱藏表示以進行表面法向估計。

所有這些方法都將深度和地表法向預測視爲獨立的任務,忽略了它們之間的基本幾何關係。與我們最相關的工作是[32]的工作,考慮到平面區域內預測深度和表面法向的一致性,設計了一個具有4流CNN的CRF。然而,當平面區域在圖像中不常見時,它可能會失敗。相比之下,我們的GeoNet利用了一般情況下深度和表面法向之間的幾何關係,而不做任何平面或曲率假設。它不僅限於特定類型的區域,而且計算效率高。

三、幾何神經網絡

在這一節中,我們首先介紹了深度到法線網絡,它從給定的深度圖中提煉出曲面法線。然後我我們解釋了從給定的曲面法線圖更新深度的法線深度網絡。接下來是GeoNet的總體架構,它利用了這些新模塊。

3.1 深度到法線網絡

如前所述,通過直接應用神經網絡從深度學習幾何一致的曲面法向是非常困難的。從基於幾何的解[9]中得到啓發,我們提出了一種新的神經網絡結構,它以初始曲面法向圖和深度圖爲輸入,預測出較好的曲面法向。我們首先介紹幾何模型,它可以看作是一個固定權重的神經網絡。然後,我們解釋了用於平滑和組合曲面法向預測的殘差模塊。
在這裏插入圖片描述
在這裏插入圖片描述
殘差模塊:由於噪聲和其他圖像問題,這種最小二乘模型偶爾會產生曲面法線的噪聲估計。圖2顯示了一個粗糙的法線圖,爲了提高精度,我們提出了一個殘差模塊,它由一個帶跳躍連接的三層CNN和一個卷積層組成,如圖2所示。器目標是平滑噪聲,並結合曲面法線的初始猜測進一步提高質量。特別地,在匯入1x1卷積之前,該CNN的輸出與曲面法線的初始估計相連接,後者可以是另一個網絡的輸出。
在這裏插入圖片描述

圖2的最後一行顯示了這種深度到標準網絡的體系結構。通過顯示地利用深度和曲面法線之間的幾何關係,我們的網絡避免了前面提到的學習幾何一致曲面法線的困難。由於最小二乘模型只是一個固定權重層,所以計算效率高。另外重要的好處來自於使用地面真實深度作爲輸入來預測訓練網絡。它允許連接和聯合微調其他網絡,從原始圖像預測深度圖。

在這裏插入圖片描述
在這裏插入圖片描述
3.3 GeoNet

全結構:通過以上兩個網絡,我們現在解釋圖3所示的完整模型。我們首先使用兩個流CNN來預測初始深度和表面法線圖,分別如圖3(a)和(b)所示。我們採用的基本結構是(1)VGG-16和(2)ResNet-50[11]。

在這裏插入圖片描述
基於一個CNN預測的初始深度圖,我們將深度應用於第3.1節中解釋的法線網絡,以細化法線,如圖3©所示。類似地,如圖3(b)所示,給定曲面法線估計值,我們使用第3.2節中描述的法線深度網絡細化深度。我們以地面真實深度爲輸入,並將深度預測到法線網絡。對於法線到深度的網絡,我們不需要學習任何權重。

在這裏插入圖片描述

四、實驗

我們在NYU v2數據集上評估了我們的方法的有效性[28]。它包含464個室內場景實現系列,進一步分爲249個訓練系列和215個測試系列。我們從訓練實現系列中抽取30,816幀作爲訓練數據。注意[7]、[34]和[16]的方法使用120K、90K和95K數據進行訓練,這些數據都比我們的數據要多得多。

對於訓練集,我們使用[17]的修復方法來填充地面真實深度圖中的無效或缺失像素。然後按照[9]的步驟生成地面真實法線圖。我們的GeoNet是使用TensorFlow實現的。

我們使用在ImageNet上預訓練的網絡初始化兩個流CNN。特別是,我們嘗試兩種不同的選擇。第一種是基於FCN[32]的改進VGG-16網絡,具有擴張卷積[6,35]和全局池[22]。第二個是ResNet-50,它遵循了[16]的模型。我們使用Adam[14]優化網絡並裁剪梯度的範數,使其不大於5。初始學習速率爲le-4 ,並在功率參數 0.9 的多項式衰減策略下進行調整。利用隨機水平翻轉增強訓練數據。在繪製圖像時,我們將曲面法線圖的相應x方向乘以-1
在這裏插入圖片描述
4.1 與最新技術的比較

在本節中,我們將我們的GeoNet與現有方法在深度或曲面法線預測方面進行比較。

曲面法線預測:表面法向預測結果見表1。對於所有不同的度量標準,我們的GeoNet始終優於以前的方法。請注意,由於我們使用了相同的主幹網架構VGG-16,因此改進源於我們對普通網絡的深入,這有效地糾正了估計過程中的錯誤。
在這裏插入圖片描述
深度預測:在深度預測任務中,由於大多數最先進的方法都採用VGG-16和ResNet-50之間的骨幹網,因此我們在這兩種設置下進行了實驗。完整結果如表 2 所示。我們的GeoNet在6個評估指標中的4個指標上再次優於最先進的方法。它在其餘兩個方面的表現相當。在所有這些方法中,SURGE[32]是唯一一種目標相同的方法,集聯合預測深度和曲面法線。它在VGG-16網絡上構建CRF。使用相同的骨幹網,如表中所示,我們的GeoNet明顯優於它。這是因爲我們的模型沒有對曲面形狀和低層幾何結構施加特殊的假設。
在這裏插入圖片描述
視覺比較:我們展示了預測深度和曲面法線圖的可視化實例,首先,在圖5中,我們展示了與最新深度預測方法FCRN[16]的視覺比較。我們的 GeoNet 分別在第二行和第三行中生成有關洗臉盆和小對象更精確的深度圖。
在這裏插入圖片描述
文中還給出了相應的地表法向預測,驗證了我們的大地水準面網利用地表法向提高深度的有效性。第一行的白板說明了它的有用性。深度預測的三維可視化如圖7所示。我們預測的牆面區域比以前最先進的FRCN[16]平滑得多,這表明了合併幾何一致性的必要性。

在這裏插入圖片描述

此外,我們還將結果與其他方法進行了比較,包括圖6中的Depth3D,多尺度CNN[7]和SkipNet[3]在曲面法線預測。GeoNet實際上可以產生更詳細的結果,例如,第一、二、三排的椅子、洗臉盆和牆壁。更多的聯合預測結果如圖4所示。從這些數字可以清楚地看出,我們的GeoNet在幾何估計方面比基線VGG-16網絡做的更好,而基線VGG-16網絡最初並不是爲這項任務二設計的。

在這裏插入圖片描述
在這裏插入圖片描述
運行時間比較:我們使用Intel i7-6950 CPU 和一個 TitanX GPU在PC上測試我們的GeoNet。當以VGG-16爲骨幹網時,我們的GeoNet對一幅480 x 640的圖像使用0.87s來獲得表面法向和深度。相比之下,本地網[5]對同一幅圖像的深度圖進行預測需要24秒左右;而由於在同一個VGG-16網絡上要經過10次前向傳遞,需要CRFs的推斷,所以SURGE[32]1也需要很長時間。

4.2 CNNs和幾何條件

在這一部分中,我們通過實驗驗證我們的動機,並評估先前的cnn是否可以直接學習從深度到曲面法向的映射,隱式地遵循幾何關係。

爲此,我們訓練了以地面真實深度圖和地面法線圖爲輸入和講課CNNs。我們嘗試了不同的架構,包括VGG-16的前4層,VGG-16的前7層和全VGG-16網絡。在將深度圖輸入網絡之前,深度圖分別轉爲3通道圖像編碼(x,y,z)座標。

我們在表3中提供了NYU v2數據集的測試性能。所有的選擇收斂到非常差的局部極小。爲了更公平的比較和更清晰的說明,我們在不結合初始表面法向估計的情況下,給出了由深度調向網絡預測的表面法向的測試性能。特別地,由於深度-法向網絡包含最小二乘和殘差模,因此我們也僅顯示由最小二乘模預測的表面法向圖,表示爲“LS”。該表顯示LS模塊在所有方面都已經明顯優於普通CNN基線。此外,與單獨使用最小二乘模型相比,利用殘差模型,我們的深度到法線網絡取得了更好的效果。
在這裏插入圖片描述
這些實驗初步使我們得出以下重要發現。
1、直接通過vanilla CNNs學習從深度到法線的映射幾乎不尊重潛在的幾何關係。
2、儘管它很簡單,但最小二乘模型在將幾何條件融入神經網絡方面非常有效,從而導致更好的性能。
3、與單最小二乘模型相比,我們的深度-正態網絡進一步提高了正態預測的質量。

4.3.幾何一致性

在這一節中,我們將驗證由我們的GeoNet製作的深度和表面法向圖的預測是否一致。爲此,我們首先使用地真深度和表面法線圖預訓練了深度到正常網絡,沒有最後一個 1 × 1 卷積層,並將其視爲精確變換。在給定預測深度圖的情況下,利用預先訓練好的網絡計算轉換後的曲面法線圖。通過這些準備,我們比較了以下4種配置下的誤差和精度。(1)轉換法線和預測法線之間的度量(由基準CNN生成的深度和曲面法向)。(2)裝換法線和預測法線之間的度量(有我們的GeoNet生成的深度法線和曲面法線)。(3)轉換後與地面真實法線(基於CNN生成的深度)之間的度量。(4)轉換後與地面真實法線(由我們的GeoNet生成的深度)之間的度量。這裏我們也使用VGG-16網絡作爲CNN的基準。

結果如表4所示。表中的“Pred”列表明,我們的GeoNet可以生成比基線CNNs更一致的深度和曲面法線預測。從表中的“GT”列也可以明顯看出,與基線CNN相比,我們的GeoNet得到的預測始終更接近地面真實。
在這裏插入圖片描述

五、結論

本文提出用幾何神經網絡(GeoNet)聯合預測單個圖像的深度和曲面法線。我們的GeoNet包括深度到法線和法線到深度網絡,它有效地強化了深度和曲面法線計算應遵循的幾何條件。它們使得最終的預測在幾何山更加一致和準確。我們的大量實驗表明,GeoNet達到了最先進的性能。
在未來,我們希望將我們的GeoNet應用於具有內在關照和顏色約束的任務,例如內在圖像分解好三維重建。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章