人臉表情和姿態變化萬般絲滑——基於3D人臉動態的圖像-視頻生成方法

點擊下方“AI算法與圖像處理”，一起進步！
重磅乾貨，第一時間送達

來源：AI 科技評論

從單一的人臉圖像生成其對應的視頻是一個有趣的問題，研究者們通常利用人臉圖像的稀疏特徵點(landmarks)結合生成對抗網絡(Generative Adversarial Networks, GANs)來進行人臉視頻的生成。然而，由稀疏人臉特徵點生成的人臉圖像通常會遭受質量損失、圖像失真、身份改變，以及表情不匹配等問題。

AI 科技評論今天介紹一篇能很好解決上述問題的論文，在本文中，作者使用重建出的三維人臉動態信息來指導人臉視頻的生成，旨在生成逼真的和身份不變的面部視頻。三維人臉動態可以更好的表示人臉的面部表情和動作，可以作爲有力的先驗知識指導高度逼真的人臉視頻生成。

原文標題：Image-to-Video Generation via 3D Facial Dynamics

論文地址：https://ieeexplore.ieee.org/abstract/document/9439899

在文中，作者精心設計了一套三維動態預測和人臉視頻生成模型(FaceAnime)，來預測單張人臉圖像的 3D 動態序列，然後通過稀疏紋理映射算法進一步渲染3D動態序列的皮膚細節。

最後，利用條件生成對抗網絡引導人臉視頻的生成。實驗結果顯示，FaceAnime能從單張靜止的人臉圖像生成高保真度、身份不變性的人臉視頻，較其它方法效果更好。

1

背景及簡介

當前的人臉視頻生成方法普遍採用人臉的稀疏特徵點(landmarks)來引導圖片或視頻的生成，然而作者認爲使用稀疏的二維特徵點引導人臉圖像/視頻生成的主要缺點有：

1、稀疏人臉特徵點不能很好地表示人臉圖像的幾何形狀，容易導致人臉整體形狀和麪部結構細節的缺失，進而導致合成圖像的失真和質量損失；

2、稀疏的二維特徵點不攜帶源人臉圖像的任何內容信息，這可能會導致生成的圖像過擬合於只包含訓練集的人臉圖像中；

3、在視頻生成過程中應保留人臉身份信息，但稀疏的2D特徵點沒有身份信息，容易導致合成結果的身份變化。

文章的主要貢獻如下：

不同於廣泛使用2D稀疏人臉landmarks進行圖像/視頻的引導生成，文章主要探索包含人臉豐富信息的3D動態信息的人臉視頻生成任務；
設計了一個三維動態預測網絡(3D Dynamic Prediction，3DDP)來預測時空連續的3D動態序列；
提出了一個稀疏紋理映射算法來渲染預測的3D動態序列，並將其作爲先驗信息引導人臉圖像/視頻的生成；
文章使用隨機和可控的兩種方式進行視頻的生成任務，驗證提出方法的有效性。

2

方法描述

本文提出的 FaceAnime 包含一個 3D 動態預測網絡(3D Dynamic Prediction, 3DDP)和一個先驗引導的人臉生成網絡(Prior-Guided Face Generation, PGFG)。

首先，本文方法基於三維形變模型（3D Morphable Models, 3DMM）對單張人臉圖像進行三維重建, 3DDP網絡隨後預測該圖像未來的3D動態序列，之後將動態序列進行稀疏紋理映射渲染，最後使用PGFG網絡完成相應的人臉生成。

模型的整體網絡架構和操作流程如下圖1所示：

圖1. FaceAnime的整體框架圖，包括3DDP網絡（左）和PGFG網絡（右）

（1）3D人臉重建和稀疏紋理映射

3D形變模型(3D Morphable Model, 3DMM)用來從2D人臉圖像中預測相應的3D人臉。其中，描述3D人臉的頂點(vertex)可由一系列2D人臉中的正交基線性加權得出：

其中，是平均臉,是形狀主成分基,是相應的形狀係數，是表情主成分基，是對應的表情係數。反過來，3D人臉頂點也可以通過變換映射到一個2維圖像平面上，對應的公式可以表達爲：

其中，V表示3D頂點在2維平面上的映射座標，是固定的正交映射矩陣，是對應的旋轉矩陣，而t爲偏移向量。通過最小化映射landmarks和檢測的landmarks之間的距離，最終可以求得 3DMM 中的係數。

如圖2所示，給定一張源人臉圖像(Source Face)，其3D形狀可以通過改變重建的 3DMM 係數來進行任意的修改, 則目標人臉的稀疏紋理可以由修改後的3DMM 係數獲得。在人臉重定向任務中，修改的 3DMM 係數可由參考人臉視頻幀得到，而在人臉預測任務中，則由 LSTM 模塊預測得到。爲了防止在紋理映射中，密集的紋理先驗信息太強而導致目標動作中出現不符合期望的結果，因此在紋理映射過程中本文采用間隔採樣即稀疏紋理映射，以適應不同的人臉運動變化。

圖2. 給定不同的3DMM係數所得到的不同三維人臉重建和稀疏映射的結果

不同於以往只針對某一種任務的視頻生成，在本文中作者提出了三個不同的生成任務，即人臉視頻重定向(Face video retargeting)，視頻預測(Video prediction)以及目標驅動的視頻預測(Target-driven video prediction)。對於retargeting任務，作者使用參考視頻來提供序列的變化信息，而不使用3DDP來預測。

視頻預測：給定一個觀測到的動態序列（3DMM coefficients），LSTM對其進行編碼：

爲了預測出一個合理的動作，LSTM不得不首先學習大量的動作輸入以識別在姿態序列中運動的種類以及隨時間的變化。在訓練過程中，未來動態序列可以由下式生成：

其中表示預測得到的3DMM係數，其表示在時刻t的3D dynamic。基於以上公式，模型可以從一個初始的dynamic學到一個合理的未來序列。

目標驅動的視頻預測: 對於LSTM來講，要實現目標引導的運動生成，模型需要兩個輸入，即source dynamic和target dynamic。不同於視頻預測，作者使用了一個計時器來對target dynamic進行重新賦權。整體的LSTM預測可以用公式表示爲：

這裏表示target dynamic，T爲預測長度，即𝑡 = 0表示序列開始時間，𝑡 = 𝑇爲序列結束。

損失函數: 給一個source人臉圖像, 作者使用2DAL模型迴歸出相應的3DMM係數，用來表示初始的3D dynamic 。之後模型通過觀測來生成一個係數序列。在訓練過程中，作者使用3DMM coefficient loss和3D vertex loss兩個損失函數進行監督學習。3DMM coefficient loss定義爲預測3DMM 係數和ground truth 3DMM係數之間的歐式距離：

而3D vertex loss定義爲：

其中分別爲預測得到的係數和標準係數對應的人臉三維頂點信息。則整體的損失函數可以表述爲：

先驗引導的人臉生成: 基於提出的稀疏紋理映射，source人臉圖像被用於渲染預測的3D dynamics。在這裏，稀疏紋理作爲引導人臉生成的先驗信息。文中提到的網絡PGFG (Prior-Guided Face Generation Network)主要由條件GAN網絡來組成，其結構如圖1(右)所示。

PGFG 網絡的結構：PGFG生成器G有三個輸入，分別是source人臉，對應的紋理先驗和目標的紋理先驗。在這裏，作者並沒有直接使用目標的紋理先驗作爲先驗引導，而是使用了先驗殘差來引導人臉生成，在特徵空間可以獲得運動殘差：。由此可得最終人臉爲：

爲了進一步利用不同空間位置的特徵信息，編碼器和解碼器均由Dense blocks組成。判別器有兩個輸入，即目標人臉圖像的紋理先驗分別和生成人臉、目標人臉結合的輸入，。

損失函數：網絡PGFG由三個損失函數進行監督，分別爲圖像像素間的損失，對抗損失和身份信息損失。

需要注意的是，在身份信息損失中，R爲預訓練的人臉識別模型。

網絡整體的損失函數爲：

3

實驗結果

作者分別對人臉視頻重定向、視頻預測以及目標驅動的視頻預測三個任務做了相應的大量實驗。

人臉視頻重定向：在這個任務中，作者分別對人臉表情的重定向以及頭部講話重定向兩個子任務進行了實驗。實驗表明，所提出的 FaceAnime 模型可以很好的將 source 人臉圖像中的表情和動作重定向到目標圖像上，生成相對應的姿態和講話表情，實驗結果如圖 3 所示。

圖3. FaceAnime的人臉表情重定向(a)和頭部講話重定向(b)實驗結果

人臉視頻預測：這個任務中包含視頻預測以及目標驅動的視頻預測兩個子任務。對每一個預測任務，實驗過程中作者隨機選取一張從人臉圖像測試集 IJB-C 中抽取的單張人臉圖像。對於視頻測試，作者首先使用 3DDP 網絡從source 人臉中預測一個運動序列，然後用該序列引導人臉視頻的生成。而對於目標引導的人臉預測任務，則需要兩個輸入圖像。一個是 source 人臉，另一個爲 target 人臉。3DDP 網絡用於預測從 source 人臉到 target 人臉之間平滑的運動變化，從而引導人臉視頻的生成。圖4和圖5分別展示了視頻生成和目標驅動視頻生成兩個子任務的生成結果。

圖4. FaceAnime的視頻生成結果

圖5. FaceAnime的目標驅動視頻生成的結果

爲了展示所提出方法的先進性，作者還同其他類似任務的算法進行了效果對比，部分結果顯示如圖 6 所示。

圖6. FaceAnime和其它方法的對比結果

通過比較，FaceAnime 不僅可以生成高質量且真實的人臉視頻序列，同時生成的視頻圖像可以精確地還原參考視頻中人臉表情和姿態變化，還能較好地保持人臉的身份信息。

大量實驗表明，作者提出的方法可以將參考視頻的姿態和表情變化重定位到source人臉上，並且對於一個隨機的人臉圖像，其可以生成合理的未來視頻序列。對比其他最先進的人臉生成方法，所提出的方法在生成高質量和身份信息保持的人臉方面具有更好的效果。

4

作者介紹

塗曉光，中國民用航空飛行學院講師，從事人工智能、深度學習、計算機視覺等領域的研究工作。2013-2020年在電子科技大學攻讀碩士和博士學位，2018年作爲國家公派聯合培養博士生前往新加坡國立大學學習交流一年半, 師從亞太地區傑出青年科學家馮佳時教授, 並於2019年至2020年相繼在PENSEES新加坡研究院和字節跳動人工智能實驗室擔任算法實習研究員。目前，以第一作者在IEEE-TCSVT, IEEE-TMM, ACM-TIST等世界權威期刊上發表論文11篇, Google scholar引用200多次，第一作者發表SCI期刊總影響因子超過30，曾擔任模式識別領域頂級期刊“Pattern Recognition”特邀審稿人。2020年12月份博士畢業，2021年3月以高層次人才引進身份入職中國民用航空飛行學院。

趙健，2012年獲得北京航空航天大學學士學位，2014年獲得國防科技大學碩士學位，博士就讀於新加坡國立大學電子與計算機工程系，師從馮佳時教授和新加坡工程院院士、ACM/IEEE/IAPR Fellow顏水成教授，2019年獲得博士學位，現爲軍事科學院助理研究員，入選中國科協2020-2022年度青年人才託舉工程、北京市科協2021-2023年度青年人才託舉工程，擔任視覺與學習青年學者研討會VALSE資深領域主席、中國圖象圖形學學會視覺大數據專業委員會CSIG-BVD委員、北京圖象圖形學學會BSIG第七屆理事會理事。主要研究領域爲人工智能、深度學習、模式識別、計算機視覺與多媒體分析。目前，共主持/參與科技委項目3項（序1/3/5），主持國家自然科學基金青年科學基金項目1項，參與軍科院長基金項目1項（序3）。近5年已受理國家專利6項（序1），發表高水平學術論文40餘篇，單篇影響因子最高16.389，其中，以第一作者發表CCF A類論文11篇（含2篇T-PAMI、2篇IJCV）。曾作爲第一作者獲得2021 USERN (Universal Scientific Education and Research Network) Prize提名，新加坡模式識別與機器智能協會PREMIA 2019 Lee Hwee Kuan獎（金獎），CCF A類會議、國際多媒體領域頂級會議ACM MM 2018最佳學生論文獎，CCF A類國際會議ICCV 2017 MS-Celeb-1M人臉識別競賽Hard Set/Random Set/Low-Shot Learning全部任務全球冠軍，CCF A類國際會議CVPR 2017 L.I.P競賽人物解析與人物姿態估計全部任務全球亞軍，美國國家標準與技術研究院NIST 2017 IJB-A無約束人臉識別競賽人臉驗證與人臉鑑別全部任務全球冠軍。擔任國家自然科學基金委評議專家，擔任T-PAMI、IJCV、NeurIPS（NeurIPS 2018前30%最佳審稿人）、CVPR等本領域主流國際期刊/會議的受邀審稿人。

馮佳時，現任新加坡國立大學電子與計算機工程系助理教授，機器學習與視覺實驗室負責人。

中國科學技術大學自動化系學士，新加坡國立大學電子與計算機工程系博士。2014-2015年在加州大學伯克利分校人工智能實驗室從事博士後研究。現研究方向爲圖像識別、深度學習及面向大數據的魯棒機器學習。馮佳時博士曾獲ICCV’2015 TASK-CV最佳論文獎，2012年ACM多媒體會議最佳技術演示獎。擔任ICMR 2017技術委員會主席，JMLR, IEEE TPAMI, TIP, TMM, TCSVT, TNNLS及 CVPR, ICCV, ECCV, ICML, NIPS, AAAI, IJCAI等期刊、會議審稿人。

努力分享優質的計算機視覺相關內容，歡迎關注：

     
              
              
              
      
               
               
               個人微信（如果沒有備註不拉羣！）
     
              
              
              
     
              
              
              
      
               
               
               請註明：
      
               
               
               地區+學校/企業+研究方向+暱稱
     
              
              
              
     
              
              
              
      
               
               
               

     
              
              
              


下載1：何愷明頂會分享

在「AI算法與圖像處理」公衆號後臺回覆：何愷明，即可下載。總共有6份PDF，涉及 ResNet、Mask RCNN等經典工作的總結分析

下載2：終身受益的編程指南：Google編程風格指南

在「AI算法與圖像處理」公衆號後臺回覆：c++，即可下載。歷經十年考驗，最權威的編程規範！


   
            
            
            
    
             
             
             

   
            
            
            
   
            
            
            
    
             
             
             下載3 CVPR2021
   
            
            
            
   
            
            
            
    
             
             
             

   
            
            
            
   
            
            
            
    
             
             
             在「AI算法與圖像處理」公衆號後臺回覆：
    
             
             
             CVPR
    
             
             
             ，即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

本文分享自微信公衆號 - AI算法與圖像處理（AI_study）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

人臉表情和姿態變化萬般絲滑——基於3D人臉動態的圖像-視頻生成方法

1

2

3

4

別魔改網絡了，Google研究員：模型精度不高，是因爲你的Resize方法不夠好！

深度學習中圖像分割經典算法和必備知識點整理

算！力！羊！毛！5000核時計算資源終於開放使用了！

部署教程 | ResNet原理+PyTorch復現+ONNX+TensorRT int8量化部署

YOLOS：通過目標檢測重新思考Transformer（附源代碼）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結