CVPR2020 best paper:對稱可變形三維物體的無監督學習

點擊上方“3D視覺工坊”,選擇“星標”

乾貨第一時間送達

代碼地址:

https://github.com/elliottwu/unsup3d

項目地址:https://elliottwu.com/projects/unsup3d/

測試地址:

http://www.robots.ox.ac.uk/~vgg/blog/unsupervised-learning-of-probably-symmetric-deformable-3d-objects-from-images-in-the-wild.html?image=004_face&type=human

概述

作者提出了一種從原始單目圖像學習三維形變物體的方法,並且沒有額外的監督信號。這個方法是基於自編碼器的架構,將輸入的圖像轉換爲深度、反射率、視角和照明信息。爲了分解這些沒有監督的組件,作者使用了這樣一個事實,即在大體上很多物體都是一個對稱結構。對照明的推理允許我們去發掘潛在的對稱,儘管由於陰影等原因外表不是對稱的。實驗表明這個方法能夠從單目圖像中恢復效果非常好的人臉、貓臉和汽車的三維形狀。

簡介 

理解圖像的3D結構在很多計算機視覺應用中是非常關鍵的,很多深度網絡都是在2D平面上理解圖像,3D建模能夠去除自然圖像中的變化性並且提高圖像的理解。和其他一些方式類似,作者考慮從可變形物體學習3D模型(注:就是通過改變物體的形狀來生成模型,比如說mesh表示的球體,通過改變頂點的位置即可生成另外一個物體)。

作者在兩個挑戰性的條件下研究這個問題,第一個是沒有2D或者3D的真值,第二個是算法必須使用無約束的單目圖像集合——特別地,不需要相同實例的多個視角圖像,這是因爲在很多應用中從一張圖像是非常重要的。基於上面兩個問題,該算法能夠從一張圖像中建立該物體的三維形狀,如下圖所示:

首先用一個自編碼器將圖像分解成反射率、深度、光照和視角信息,並且對於這些信息沒有直接的監督。但是,這是一個不適定問題,爲了最小化這個問題,作者注意到大多數的物體都是對稱的。由此可以通過簡單的鏡像對稱獲得一個虛擬的第二視角,如果能夠找到這兩張圖像之間的聯繫,三維重建就能夠通過立體重建實現。

但是對於一個物體來說,由於各種原因,並不是完全對稱的。作者從兩個方面解決這個問題,第一個方法是利用確定的光照模型來發掘潛在的對稱性,第二個方式是增大這個模型去推理物體潛在的對稱性缺失。

作者將上面的組件集成到一個端到端的學習框架中,包括置信圖,都是從原始圖像生成的。同時還發現,對稱可以通過翻轉內部表示來實現,這對於概率性的對稱推理特別有用。最後實驗表面,該方法在很多數據集上面都表現出了很好的效果,並且超過了目前最先進的技術(可直接看最後的實驗結果和視頻)。

相關工作

爲了評估該方法對於基於圖像的三維重建文獻的貢獻,作者考慮了以下三個方面的內容:信息的使用,假設和輸出。下表顯示了相比於之前的作品,作者基於上述三個因素的貢獻:

SFM:傳統的方法例如sfm能夠從單個嚴格的場景中重建三維結構,儘管單目重建方法能夠從單個圖像中表現出很好的效果,但是需要多個視角或者視頻進行訓練。還有一個方法叫做Non-Rigid SfM (NRSfM),能夠學習重建可變形的物體,但是需要標註好的2D關鍵點作爲監督。

Shape from X:其他的一些線索被選擇或者作爲sfm的補充來恢復形狀,例如輪廓、紋理、對稱等。特別地,本文的方法受到從對稱和明暗情況恢復形狀的影響,前者使用鏡像圖像作爲虛擬第二視角重建對稱物體,後者假設一個陰影模型,如蘭伯氏反射率,並通過利用非均勻光照重建表面。

特殊種類的重建:基於圖像的方法最近被廣泛應用,不管是原始圖像還是2D關鍵點。儘管這是一個不適定問題,但是可以通過從訓練數據中學習合適的對象來解決。除了直接使用3D真值,一些作者考慮使用視頻、立體對,還有一些方法使用2D關鍵點標註或者圖像mask。對於人體或者人臉來說,有些方法直接從原始圖像學習重建通過一些預先定義的模型。這些模型是由一些特殊的軟件或者其他方法生成的,但是這對於一些動物來說比較難獲得,限制了形狀的細節部分。

最近纔有作者嘗試着從原始單目圖像中學習物體類別的幾何紋理,但是都有一定的缺陷或者不足,將會在後面做一個詳細的比較。因爲要從3D模型恢復圖像進行比較,所以一個很重要的組件是可微渲染器。現在已經提出了很多渲染方法,這裏使用了Neural 3d mesh renderer(公衆號裏面有一篇文章專門講這個)。

方法

給定一個對象類別的圖像集合,例如人臉,我們的目標是學習一個模型Φ,將輸入的圖像分解成3D形狀、反射率、照明和視角,如下圖所示:

因爲只有原始圖像可以學習,所以首先從圖像中恢復前面提到的四個因素。還有一個事實是,大部分物體都是對稱的,但是由於其它原因,對於每一個實例來說不一定是完全對稱的。爲了解決這個問題,作者明確建立了非對稱光照模型,並且對於輸入圖像中的每個像素,都有一個置信值,用於解釋該像素在圖像中具有對稱對等物的概率(上圖conf)。下面將詳細介紹各部分的內容。

1、照片自編碼:一張圖像可以表示成3xWxH的網格,假設圖像大部分都是以感興趣對象爲中心,我們的目標是學習一個函數Φ,實現神經網絡,將輸入轉換爲四個要素(d,a,w,l)。這四個要素分別事深度圖d,反照率圖像a,光方向l和視角w。

然後由這四個要素分兩步重建物體,光照Λ和投影Π,如下所示:

光照功能Λ從一個規範角度生成基於深度圖d、光方向l和反射率a的物體,視點w表示規範視點和實際輸入圖像I的視點之間的轉換。然後投影函數Π基於變化的角度、規範的深度和光照功能產生的模型,生成另外一幅圖像,和輸入圖像求重建損失。

2、可能對稱的物體:利用對稱進行三維重建需要在圖像中識別對稱的物體點,這裏作者假設深度和反照率在一個標準座標系中重建,是關於一個固定的垂直面對稱的。這能夠幫助模型發現“規範視圖”,這對重建來說非常重要。

爲了實現上述目標,作者考慮了一個操作器沿着水平軸翻轉圖,d≈flipd和a≈flipa。雖然這些限制可以通過在學習目標中添加相應的損失函數來強制執行,但它們很難平衡。爲此,作者通過獲得翻轉後重建的模型來達到相同效果,如下圖所示:

然後分別考慮兩個模型重建後生成圖像的損失,因爲它們是相稱的,很容易平衡和共同訓練。更重要的是,這個方法能夠允許我們更容易的推理對稱的概率。

原始圖像和生成的圖像之間的損失如下所示:

其中L1,uv是像素之間的L1損失,σ是由網絡建立的置信圖,表達了模型的任意不確定性。這種損失可以解釋爲重構殘差的拉普拉斯分佈的負對數似然性。優化可能性使模型自我校準,學習有意義的置信圖。

更重要的是,作者從相同的圖像中,利用網絡來估計第二個置信圖。這個置信圖表示輸入圖像的哪些部分可能是不對稱的。例如第二章圖像中人臉上面的頭髮不是對稱的,第二個置信圖在不滿足對稱假設的頭髮區域,可指定較高的重建不確定性。

總的來說,作者結合兩種重構誤差給出了學習目標:

3、成像模型:圖像是由一個相機在特定的角度拍攝得到的,如果我們用P表示一個在攝像機參考系中表示的3D點,它通過以下投影映射到像素P=(u,v,1):

這個模型假設一個透視相機的視野(FOV) θFOV。假設物體與攝像機的標稱距離約爲1米。考慮到這些圖像是圍繞一個特定的物體剪裁的,假設一個相對狹窄的FOV,如θFOV=10°。深度圖d將深度值duv與標準視圖中的每個像素(u, v)關聯起來,通過倒轉相機模型,作者發現這與三維點相對應:

4、感知損失:上面提到的圖像之間的損失對小的幾何缺陷比較敏感,可能會導致模糊的重建。作者添加了一個感知損失項來緩解這個問題,在圖像編碼器的第k層預測一個表示e(I),這個特性編碼器不必接受監督任務的訓練,和上個損失函數相似,假設爲高斯分佈,感知損失爲:

其中

表示第k層的每個像素指數uv。更加詳細的損失介紹見論文。 

結果展示

面部,貓臉和汽車的重建

人臉的重建

與SOTA的效果比較

抽象貓臉的重建效果

本文僅做學術分享,如有侵權,請聯繫刪文。

推薦閱讀

重磅!3DCVer-學術論文寫作投稿 交流羣已成立

掃碼添加小助手微信,可申請加入3D視覺工坊-學術論文寫作與投稿 微信交流羣,旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。

同時也可申請加入我們的細分方向交流羣,目前主要有3D視覺CV&深度學習SLAM三維重建點雲後處理自動駕駛、CV入門、三維測量、VR/AR、3D人臉識別、醫療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產品落地、視覺競賽、車牌識別、硬件選型、學術交流、求職交流等微信羣,請掃描下面微信號加羣,備註:”研究方向+學校/公司+暱稱“,例如:”3D視覺 + 上海交大 + 靜靜“。請按照格式備註,否則不予通過。添加成功後會根據研究方向邀請進去相關微信羣。原創投稿也請聯繫。

▲長按加微信羣或投稿

▲長按關注公衆號

3D視覺從入門到精通知識星球:針對3D視覺領域的知識點彙總、入門進階學習路線、最新paper分享、疑問解答四個方面進行深耕,更有各類大廠的算法工程人員進行技術指導。與此同時,星球將聯合知名企業發佈3D視覺相關算法開發崗位以及項目對接信息,打造成集技術與就業爲一體的鐵桿粉絲聚集區,近1000+星球成員爲創造更好的AI世界共同進步,知識星球入口:

學習3D視覺核心技術,掃描查看介紹,3天內無條件退款

 圈裏有高質量教程資料、可答疑解惑、助你高效解決問題

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章