3D Face Modeling From Diverse Raw Scan Data

3D Face Modeling From Diverse Raw Scan Data

標籤(空格分隔): 論文


摘要

傳統的3D人臉模型使用線性子空間從單個數據集的有限掃描中學習人臉的潛在表達。從不同的3D數據集中構造一個大規模的人臉模型的主要困難在於原始掃描之間缺少緊密的對應關係。

  • 傳統的3D人臉模型是怎麼做的
  • 建立一個大規模的人臉模型存在的主要困難

爲了解決這些問題,本文提出了一個innovative framework,該框架主要是去做了以下兩點:學習一個非線性的人臉模型從一系列不同的原始3D掃描數據集中;在這些掃描中建立點到點的稠密鏈接。具體來講就是,通過將輸入掃描視爲無組織的點雲,然後嘗試使用PointNet框架將點雲轉化爲身份和特徵的表示,從解碼器網絡中恢復它的3D人臉形狀。此外,我們提出了一種不需要對應標籤的監督學習方法。在下面我們證明了我們提出方法的優秀的對應和表達能力,和他對單圖重建3D人臉特徵的能力。

  • 從一系列不同的原始3D掃描數據集中學習一個非線性的人臉模型。
  • 建立點到點的稠密鏈接。
  • weakly supervised

Introduction

魯棒的和具有表現力的3D人臉建模是很有價值的計算機視覺問題。例如:3D重建、人臉識別、計算機圖形學。目前最先進的3D人臉表徵大多采用線性變化的方法。例如3D Morhpable Model或者高階張量推廣,例如Blendshapes Model。然而這些線性模型無法捕捉高頻細節和極端表達式等非線性變形。最近隨着深度學習的出現,人們嘗試使用深度學習網絡進行非線性數據驅動人臉建模。


  • 線性模型無法捕捉高頻細節和極端表達式等非線性變形,但有了深度神經網絡可以擬合更加複雜的函數之後,就可以解決上述問題。

爲了建立3D人臉形狀,我們需要進行大量的3D掃描。廣泛使用的基於3DMM的BFM2009建立在僅僅對200名受試者的中性表情上。缺少expression這個問題可能可以用FaceWarehouse和BD-3FE這兩個expression來補償。在之後的十年裏,幾乎所有的模型只是使用不到300個訓練對象,如此小的訓練數據集是遠遠不夠描述足夠的面部信息的。直到最近Booth和他的兄弟們建立了第一個大規模的人臉模型數據集,從9633受試者的中性掃描。不幸的是,之發佈了用於線性變化方法的數據,而不是原始掃描數據,我們不能充分利用這個大型的數據集來探索不同的3D建模技術。(???這是在讓別人開放這個數據集的原始數據???)

  • 還在哭窮, 表示沒有足夠的數據給訓練。
  • 這裏的expression是什麼意思?

現有3D人臉建模方法的前提是稠密的點到點的對應關係。我們提出的基於CNN的方法直接從多個3D人臉數據集的原始掃描中學習人臉模型,並在所有掃描之間建立密集的點到點的對應關係(彩色的效果會更好)。儘管掃描在分辨率和表情上存在着一定的差異,但是我們的模型可以很好的表示細節的程度。

  • 原圖彩色效果更佳(?可能是卷積的時候的多通道原因可以獲取面部紋理帶來的不同顏色導致可以採集到更加多的面部紋理變化?)

事實上,有很多公開可使用的3D人臉數據集,然而這些數據集通常是被單獨使用的,而不是聯合去製作一個大規模的人臉模型。主要的障礙在於從原始掃描中預估稠密點對點對應關係的挑戰,它允許這些掃描被組織在相同的向量空間中,使其可以作爲一個整體進行分析。

  • 最後一句話再找找資料。

稠密的點對點對應是絕大多數3D人臉建模的基礎問題,它可以被定義爲:\(S\)\(S'\)是給定的兩個3D人臉,該correspondence需要滿足下面三點:

  1. \(S\)\(S'\)需要有相同的頂點數量。
  2. 對應的點語義相同。
  3. 對應的點處於相同的局部拓撲三角形環境中。
  • 例如\(S\)描述鼻子的點有108個,那麼\(S'\)對應描述鼻子的點也應該是108個。
  • 假設\(S_1\)描述的是鼻尖,那麼對應的\(S'_1\)描述的應該也是鼻尖
  • 不懂? 這個需要去補一補 點雲 mesh slam。

先驗的稠密對應方法缺乏精度,魯棒性或者自動程度。此外,他們他們之中有很少在多數據庫上去的成功的例子。除了數據規模之外,密集對應對於多數據集來說是明顯比但數據庫更加困難的:掃描的質量經常不可避免的收到人爲因素(例如頭髮和眉毛的遮擋之類)的丟失和異常值的影響;面部形態因爲嘴巴的開閉導致發生顯著的變化;不同的數據庫分辨率也有很大的不一致。

  • 先驗的稠密對應方法缺點明顯
  • 除數據規模之外的各種困難

爲了解決這個問題,我們提出了一個新穎的編碼解碼器去直接在多個數據集的原始3D掃描數據中學習人臉模型,並建立他們之間的稠密鏈接。我們的方法提出了:基於PointNet的編碼器,學習三維人臉的非線性身份和表達式潛在表示;一種對應的解碼器可以爲各種分辨率和expression建立稠密鏈接;該編碼器可以嵌入現有的基於圖像的編碼器進行3D人臉重建。具體來說,通過將原始掃描視爲無組織的點雲,我們探索使用PointNet將點雲轉化爲身份和表情表示,從解碼器中恢復他們的3D面部形狀。

  • 這裏貌似用的是語義分割的辦法?

然而,由於缺少ground truth密集對應,有監督學習的方法往往是不能用的。因此我們提出了一中混合了合成和real 3D 掃描的弱監督方法。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章