ICCV 2021 | FACIAL :動態談話人臉視頻生成,姿態,眨眼皆可控!

點擊下方AI算法與圖像處理”,一起進步!

重磅乾貨,第一時間送達

來源:AI科技評論

本文是對發表於計算機視覺領域的頂級會議 ICCV 2021的論文“FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute Learning(具有隱式屬性學習的動態談話人臉視頻生成)”的解讀。

論文鏈接:https://arxiv.org/pdf/2108.07938.pdf

視頻簡介:https://m.youtube.com/watch?v=hl9ek3bUV1E

作者:張晨旭(德克薩斯大學達拉斯分校);趙一凡(北京航空航天大學);黃毅飛(華東師範大學);曾鳴(廈門大學);倪賽鳳(三星美國研究院);Madhukar Budagavi(三星美國研究院);郭小虎(德克薩斯大學達拉斯分校)。


1

研究背景

音頻驅動的動態人臉談話視頻生成已成爲計算機視覺、計算機圖形學和虛擬現實中的一項重要技術。然而這一過程中,生成逼真的人臉視頻仍然非常具有挑戰性,這不僅要求生成的視頻包含與音頻同步的脣部運動,同時個性化、自然的頭部運動和眨眼等屬性也是十分重要的。動態談話人臉合成所蘊含的信息大致可以分爲兩個不同的層次:

1)需要與輸入音頻同步的屬性,例如,與聽覺語音信號有強相關性的脣部運動;

2)與語音信號具有較弱相關性的屬性,即與語音上下文相關、與個性化談話風格相關的其他屬性(頭部運動和眨眼)。

歸納總結上述兩種不同類型的屬性,我們稱第一類屬性爲顯式屬性,第二類爲隱式屬性

圖 1 三種典型的音頻引導的談話人臉合成方法。
a)圖像輸入作爲指導,不生成隱式屬性,
b)視頻輸入作爲指導,隱式屬性是從原視頻中複製得到,
c)本方法內容:以視頻輸入爲指導,同時生成隱式和顯式特徵。

如圖1所示,大多數現有生成方法只關注於人臉的顯式屬性生成,即通過輸入語音,合成同步的脣部運動屬性。這些方法合成的人臉結果要麼不具有隱式屬性[1,2](圖1中a所示),要麼複製原始視頻的隱式屬性[3,4](圖1中b所示)。只有少部分工作[5,6]探索過頭部姿勢與輸入音頻之間的相關性。

儘管這些工作針對生成屬性進行了不同側面的探究,但是對這些屬性的具體研究,仍存在以下問題:(1)顯式和隱式屬性如何潛在地相互影響?(2) 如何對隱式屬性進行建模?例如頭部姿勢和眨眼等屬性不僅取決於語音信號,還取決於語音信號的上下文特徵以及與個體相關的風格特徵。


2

方法介紹

圖 2 音頻驅動的隱式-顯式屬性聯合學習的談話人臉視頻合成框架。

如圖2所示,我們提出了一個人臉隱式屬性學習(FACIAL)框架來合成動態的談話人臉視頻

(1)我們的 FACIAL 框架使用對抗學習網絡聯合學習這一過程中的隱式和顯式屬性。我們提出以協作的方式嵌入所有屬性,包括眨眼信息、頭部姿勢、表情、個體身份信息、紋理和光照信息,以便可以在同一框架下對它們用於生成說話人臉的潛在交互進行建模。

(2) 我們在這個框架中設計了一個特殊的 FACIAL-GAN網絡來共同學習語音、上下文和個性化信息。這一網絡將一系列連續幀作爲分組輸入並生成上下文隱空間向量,該向量與每個幀的語音信息一起由單獨的基於幀的生成器進一步編碼。因此,我們的 FACIAL-GAN 可以很好地捕獲隱式屬性(例如頭部姿勢等)、上下文和個性化信息。

(3) 我們的 FACIAL-GAN 還可以預測眨眼信息,這些信息被進一步嵌入到最終渲染模塊的眼部相關的注意力圖中,用於在輸出視頻合成逼真的眼部運動信息。實驗結果和用戶研究表明,我們的方法可以生成逼真的談話人臉視頻,該生成視頻不僅具有同步的脣部運動,而且具有自然的頭部運動和眨眼信息。並且其視頻質量明顯優於現有先進方法。

圖 3 本方法提出的FACIAL-GAN網絡結構框架

如圖3所示,FACIAL-GAN 由三個基本部分組成:時間相關生成器用於構建上下文關係和局部語音生成器用於提取每一幀特徵。此外,使用判別器網絡來判斷生成的屬性的真假。(具體的網絡細節請參考原文內容)


3

實驗結果分析
  • 定性比較實驗

圖 4 與現有音頻驅動的人臉視頻生成方法的定性比較結果

如圖4,圖5,圖6所示,我們與現有音頻驅動的人臉視頻生成方法進行比較。相比之下,通過顯式和隱式屬性的協同學習,我們的方法生成具有個性化的頭部運動,考慮到不同個體的運動特性,同時可以生成更加逼真眨眼信息的人臉視頻。(詳細的比較結果請參考上述的視頻鏈接)

圖 5 與 Vougioukas,Chen等方法的定性對比

圖 6 與 Suwajanakorn,Thies等方法的定性對比

  • 定量比較實驗

我們同時通過定量化分析實驗,如關鍵點運動偏移,視聽同步置信度進行衡量,具體信息如表1所示。本文所提出的聯合隱式和顯式屬性生成框架,超越了大多數現有方法,在各項屬性生成任務中,均具有較優的解析質量。

如表2所示,我們通過進行主觀的用戶研究(User Study),即從人類觀察的角度比較生成的結果,其中更大的數值代表更優的生成質量和用戶認可度。


4

結語

在這項工作中,除傳統的脣部運動等顯式屬性之外,我們以自然頭部姿勢和眨眼信息等隱式屬性作爲學習目標,優化談話人臉視頻的生成質量和真實度。但需要注意的是,人臉談話視頻仍然具有其他更細節的隱式屬性,例如,眼球運動、身體和手勢、微表情等等。這些屬性可能受其他更深層次維度信息的引導,可能需要其他網絡組件的特定設計,仍有待於未來進一步探究。我們希望本文提出的FACIAL 框架可以爲未來探索隱式屬性學習提供一種新穎的研究思路和啓發。

參考文獻
[1] Lele Chen, Ross K Maddox, Zhiyao Duan, and Chenliang Xu. Hierarchical cross-modal talking face generation with dynamic pixel-wise loss. CVPR, 2019.
[2] Hang Zhou, Yu Liu, Ziwei Liu, Ping Luo, and Xiaogang Wang. Talking face generation by adversarially disentangled audio-visual representation. AAAI, 2019.
[3] Supasorn Suwajanakorn, Steven M Seitz, and Ira Kemelmacher-Shlizerman. Synthesizing obama: learning lip sync from audio. TOG, 2017.
[4] Justus Thies, Mohamed Elgharib, Ayush Tewari, Christian Theobalt, and Matthias Nießner. Neural voice puppetry: Audio-driven facial reenactment. ECCV, 2020.
[5] Ran Yi, Zipeng Ye, Juyong Zhang, Hujun Bao, and Yong-Jin Liu. Audio-driven talking face video generation with natural head pose. arXiv preprint arXiv:2002.10137, 2020.
[6] Yang Zhou, Xintong Han, Eli Shechtman, Jose Echevarria, Evangelos Kalogerakis, and Dingzeyu Li. Makelttalk: speaker-aware talking-head animation. TOG, 2020.

努力分享優質的計算機視覺相關內容,歡迎關注:

交流羣


歡迎加入公衆號讀者羣一起和同行交流,目前有美顏、三維視覺計算攝影、檢測、分割、識別、醫學影像、GAN算法競賽等微信羣


     
             
             
             
個人微信(如果沒有備註不拉羣!
請註明: 地區+學校/企業+研究方向+暱稱



下載1:何愷明頂會分享


AI算法與圖像處理」公衆號後臺回覆:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經典工作的總結分析


下載2:終身受益的編程指南:Google編程風格指南


AI算法與圖像處理」公衆號後臺回覆:c++,即可下載。歷經十年考驗,最權威的編程規範!



   
           
           
           
下載3 CVPR2021

AI算法與圖像處公衆號後臺回覆: CVPR 即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文


本文分享自微信公衆號 - AI算法與圖像處理(AI_study)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章