基於圖像的三維物體重建:深度學習時代的最新技術和趨勢(概述和編碼)

點擊上方“3D視覺工坊”,選擇“星標”

乾貨第一時間送達

概述

三維重建是一個長期存在的不適定問題,已經被計算機視覺、計算機圖形學和機器學習界探索了幾十年。自2015年以來,利用卷積神經網絡(CNN)進行基於圖像的三維重建引起了越來越多的關注,並且表現非常出色。鑑於這一快速發展的新時代,本文全面綜述了這一領域的最新發展,重點研究了利用深度學習技術從單個或多個RGB圖像中估計一般物體三維形狀的方法。

1.簡介

基於圖像的三維重建的目標是從一幅或多幅二維圖像中推斷出物體和場景的三維幾何和結構,從二維圖像中恢復丟失的維數一直是經典的多視圖立體和shape-from-X方法的目標,這些方法已經被廣泛研究了幾十年。

第一代方法是從幾何的角度來處理這一問題的;它們側重於從數學上理解和形式化三維到二維的投影過程,目的是設計不適定反問題的數學或算法解,有效的解決方案通常需要使用精確校準的攝像機拍攝多幅圖像。

有趣的是,人類善於利用先驗知識解決這種不適定反問題。我們只用一隻眼睛就能推斷出物體的大致大小和大致幾何結構,甚至可以從另一個角度猜測它的樣子。之所以能做到這一點,是因爲所有以前看到的物體和場景都使我們能夠建立起先前的知識,並建立一個物體外觀的心理模型。

第二代三維重建方法試圖利用這一先驗知識,將三維重建問題表述爲一個識別問題。深度學習技術的發展,更重要的是,大型訓練數據集的可用性不斷提高,催生了新一代的方法,能夠從一個或多個RGB圖像中恢復物體的三維結構,而無需複雜的攝像機校準過程。

本文對利用深度學習技術進行三維物體重建的最新進展進行了全面而系統的綜述,收集了149篇論文,這些論文自2015年以來出現在領先的計算機視覺、計算機圖形學和機器學習會議和期刊上。目標是幫助讀者在這一新興領域中找到方向,這一領域在過去幾年中獲得了巨大的發展勢頭。

2.問題陳述與分類

設I = {Ik,k=1,...,n}是一個或多個對象X的n(≥1)張RGB圖像的集合。三維重建可以將其歸納爲學習預測器fθ的過程,該預測器fθ可以推斷儘可能接近已知形狀X的形狀。換句話說,函數fθ是重建目標L(I)=d(fθ(I),X)的最小值。這裏,θ是f的一組參數,d(·,·)是目標形狀X與重構形狀f(I)之間距離的一個特定的度量。

本綜述根據輸入I的性質、輸出的表示、訓練和測試期間用於近似預測器f的神經網絡結構、它們使用的訓練過程及其監督程度,討論並分類了最新的技術,可視化總結見下表。

具體地,輸入I可以是單個圖像,或者使用RGB相機捕捉的多個圖像,其內部和外部參數可以是已知或未知的,或者視頻流,即具有時間相關性的圖像序列。

輸出的表示對於網絡結構的選擇至關重要,這也影響了重建的計算效率和質量,主要是以下幾種表示方法:

體積表示:在早期基於深度學習的三維重建技術中被廣泛採用,它允許使用規則體素    網格對三維形狀進行參數化。因此,在圖像分析中使用的二維卷積可以很容易地擴展到    三維,但是它們在內存需求方面非常昂貴,只有少數技術可以達到亞像素精度。

基於面的表示:如網格和點雲,雖然這種表示具有記憶效率,但它不是規則結構,因    此不容易融入深度學習體系結構。

中間表示:一些三維重建算法直接從RGB圖像預測物體的三維幾何結構,然而另一些       算法將問題分解爲連續步驟,每個步驟預測一箇中間表示。

已經使用了各種網絡架構來實現預測器f,主幹架構(在訓練和測試期間可以不同)由編碼器h和解碼器g(即f=g◦h)組成。編碼器將輸入映射到稱爲特徵向量或代碼的隱變量x中,使用一系列的卷積和池化操作,然後是全連接層。解碼器也稱爲生成器,通過使用全連接層或反捲積網絡(卷積和上採樣操作的序列,也稱爲上卷積)將特徵向量解碼爲所需輸出。前者適用於三維點雲等非結構化輸出,後者則用於重建體積網格或參數化表面。

雖然網絡的體系結構及其構建塊很重要,但性能在很大程度上取決於網絡的訓練方式。在本文中,將從以下幾個方面詳細介紹:

數據集:目前有各種數據集可用於訓練和評估基於深度學習的三維重建,其中一些使用真實數據,另一些則是計算機圖形學生成的。

損失函數:損失函數的選擇會顯著影響重建質量,同時規定了監督的程度。

訓練過程和監督程度:有些方法需要用相應的三維模型標註真實的圖像,獲得這些圖像的成本非常高;有些方法則依賴於真實數據和合成數據的組合;另一些則通過利用容易獲得的監督信號的損失函數來避免完全的三維監督。

3.編碼階段

基於深度學習的三維重建算法將輸入I編碼爲特徵向量x=h(I)∈X,其中X是隱空間。一個好的映射函數h應該滿足以下性質:

•表示相似3D對象的兩個輸入I1和I2應映射爲x1和x2∈X,它們在隱空間中彼此接近。

•x的小擾動∂x應與輸入形狀的小擾動相對應。

•由h引起的潛在表示應不受外部因素的影響,如攝像機姿態。

•三維模型及其對應的二維圖像應映射到隱空間的同一點上,這將確保表示的特徵不是含糊不清的,從而有助於重建。

前兩個條件可以通過使用編碼器來解決,編碼器將輸入映射到離散或連續隱空間,它們可以是平面的或層次的(。第三個問題可以通過使用分離表示解決,最後一個在訓練階段通過使用TL架構來解決。

3.1離散隱空間

Wu在他們的開創性工作[1]中引入了3D ShapeNet,這是一種編碼網絡,它將表示大小爲303的離散體積網格的3D形狀映射到大小4000×1的潛在表示中。其核心網絡由nconv=3個卷積層(每個卷積層使用3D卷積濾波器)和nfc=3個全連接層組成。這種標準的普通架構已經被用於三維形狀分類和恢復,並用於從以體素網格表示的深度圖中進行三維重建。

將輸入圖像映射到隱空間的2D編碼網絡遵循與3D ShapeNet相同的架構,但使用2D卷積。早期的工作在使用的層的類型和數量上有所不同,其他的工作包括池化層和激活函數,通過改變這些,可以提高學習效率,達到更好的效果。

3.2連續潛空間

使用前一節中介紹的編碼器,隱空間X可能不是連續的,因此它不允許簡單的插值。換句話說,如果x1=h(I1)和x2=h(I2),則不能保證(x1+x2)/2可以解碼爲有效的3D形狀。此外,x1的小擾動不一定對應於輸入的小擾動。

變分自編碼器(VAE)及其3D擴展(3D-VAE)具有一個基本獨特的特性,使得它們適合生成建模:通過設計,它們的隱空間是連續的,允許簡單的採樣和插值。

其關鍵思想是,它不是將輸入映射到特徵向量,而是映射到多變量高斯分佈的平均向量μ和標準差σ向量。然後,採樣層獲取這兩個向量,並通過從高斯分佈隨機採樣生成特徵向量x,該特徵向量x將用作隨後解碼階段的輸入。

3.3層次潛空間

Liu[2]表明,將輸入映射到單個潛在表示的編碼器不能提取豐富的結構,因此可能導致模糊的重構。爲提高重建質量,Liu引入了更復雜的內部變量結構,其具體目標是鼓勵對潛在特徵檢測器的分層排列進行學習。

該方法從一個全局隱變量層開始,該層被硬連接到一組局部隱變量層,每個隱變量層的任務是表示一個級別的特徵抽象。跳躍連接以自上而下的定向方式將隱代碼連接在一起:接近輸入的局部代碼將傾向於表示較低級別的特徵,而遠離輸入的局部代碼將傾向於表示較高級別的特徵。最後,當輸入到特定於任務的模型(如三維重建)中時,將局部隱代碼連接到扁平結構。

3.4分離表示

圖像中對象的外觀受多個因素的影響,例如對象的形狀、相機姿勢和照明條件。標準編碼器在學習的代碼x中表示所有這些變量。這在諸如識別和分類之類的應用中是不可取的,這些應用應該對諸如姿勢和照明之類的外部因素保持不變。三維重建也可以受益於分離式表示,其中形狀、姿勢和燈光用不同的代碼表示。

【1】Z. Wu, S. Song, A. Khosla, F. Yu, L.Zhang, X. Tang, and J. Xiao, “3D shapenets: A deep representation forvolumetric shapes,” in IEEE CVPR, 2015, pp. 1912–1920.

【2】S. Liu, C.L. Giles, I. Ororbia, and G. Alexander, “Learning a HierarchicalLatent-Variable Model of 3D Shapes,” International Conference on 3D Vision,2018.

本文僅做學術分享,如有侵權,請聯繫刪文。

推薦閱讀

重磅!3DCVer-學術論文寫作投稿 交流羣已成立

掃碼添加小助手微信,可申請加入3D視覺工坊-學術論文寫作與投稿 微信交流羣,旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。

同時也可申請加入我們的細分方向交流羣,目前主要有3D視覺CV&深度學習SLAM三維重建點雲後處理自動駕駛、CV入門、三維測量、VR/AR、3D人臉識別、醫療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產品落地、視覺競賽、車牌識別、硬件選型、學術交流、求職交流等微信羣,請掃描下面微信號加羣,備註:”研究方向+學校/公司+暱稱“,例如:”3D視覺 + 上海交大 + 靜靜“。請按照格式備註,否則不予通過。添加成功後會根據研究方向邀請進去相關微信羣。原創投稿也請聯繫。

▲長按加微信羣或投稿

▲長按關注公衆號

3D視覺從入門到精通知識星球:針對3D視覺領域的知識點彙總、入門進階學習路線、最新paper分享、疑問解答四個方面進行深耕,更有各類大廠的算法工程人員進行技術指導。與此同時,星球將聯合知名企業發佈3D視覺相關算法開發崗位以及項目對接信息,打造成集技術與就業爲一體的鐵桿粉絲聚集區,近1000+星球成員爲創造更好的AI世界共同進步,知識星球入口:

學習3D視覺核心技術,掃描查看介紹,3天內無條件退款

 圈裏有高質量教程資料、可答疑解惑、助你高效解決問題

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章