【文獻解讀 情感合成】Expressive Speech Driven Talking Avatar Synthesis with DBLSTM using 有限的情感雙峯數據

論文題目:Expressive Speech Driven Talking Avatar Synthesis with DBLSTM using Limited Amount of Emotional Bimodal Data

論文來源:INTERSPEECH 2016 清華大學, 香港中文大學

論文鏈接:https://isca-speech.org/archive/Interspeech_2016/pdfs/0364.PDF

關鍵詞:合成會講話的虛擬人,情感,嘴脣動作,面部表情,DBLSTM

這學期一門課期末要彙報文獻,需要講解和情感計算相關的文獻,於是看了這篇,整理一下。



1 摘要

本文解決的問題是合成有表現力的語音頭像替身,這一任務的關鍵在於建模面部情緒和嘴脣動作的交互

傳統的方法要不就是對嘴脣的動作面部表情分別建模,要不就是需要大量高質量的有情感信息的音視頻雙峯訓練數據,但是這種數據通常很難獲取到。

本文提出了幾種方法,探索使用大量的中立語料和數據有限的小型情感語料捕獲面部表情和嘴脣動作互動的不同可能性。

爲了整合語境的影響,我們採用深層雙向長短時記憶DNLSTM)循環神經網絡作爲迴歸模型,從聲音特徵情感狀態語境三個方面對人臉特徵進行預測

實驗結果顯示,通過拼接中性的人臉特徵和情感聲音特徵作爲DBLSTM模型的輸入,在客觀和主觀評價兩方面都取得了最好的結果。


2 引言

會講話的虛擬人已經廣泛應用於虛擬主機/導師、語音代理、遠程通信等人機交互領域。一個生動的人臉模型需要語音、脣動和麪部的情感表情來增強互動。

一些研究表明說話人在不同情緒影響下的行爲是截然不同的。這種影響因語音語境的不同而不同。例如,講“what?”時由於面部表情的不同(happy or sad),脣部的形狀和動作也是不同的。因此,在合成會講話的虛擬人(expressive talking avatar)時,面部的情感表情和脣動應該被納入考慮

已有一些研究,通過對現有的中性虛擬人合成系統進行擴展,以得到有表現力的合成的會講話的虛擬人。表現爲,從情感音視頻語料中學習不同表情的情感面部幀或參數,然後簡單地應用到情感中立的頭像面部上。

但是,這樣的方法是對脣動和面部表情分別建模的,忽視了兩者之間的交互關聯。爲了解決這一問題,有一些使用迴歸模型的統計的方法被提出,例如支持向量迴歸(SVR)、神經網絡(NNs)、隱式馬爾科夫模型(HMMs)。訓練這樣的迴歸模型需要包含不同情感的大型的語音數據集。但是,收集在不同情感下的大量的語音數據是非常低效並且耗時的。我們已有的大型數據集是包含了中立信息的音視頻語料。如何充分利用這些中立的語料,作爲對規模相對較小的情感語料的補充,以提高虛擬說話人的表達能力,需要進一步的研究。

針對上述問題,本文提出了幾種語音驅動的生成虛擬說話人的迴歸模型,並對其進行了測試。受DBLSTM的影響,我們將它應用到了迴歸模型中以合併有語音特徵和情感狀態的語境信息。基於DBLSTM,我們提出了5種方法,在使用大型的中立語料和一小部分的情感語料的前提下,得到捕獲交互信息的不同概率。

這5種方法的不同在於利用中立信息的方式不同。具體來說,在方法(a)中,只使用情感語料訓練DBLSTM網絡;方法(b)和©通過訓練一個DBLSTM網絡,同時捕獲中立的和情感的信息;方法(d)和(e)使用一個DBLSTM網絡捕獲中立信息,然後還使用了捕獲情感信息的DBLSTM。


3 數據描述

3.1 情感和中性的雙峯語料

本工作應用到的中性語料包含由一個母語是英文的女性錄製的321箇中性的話語,每個話語持續3~4秒。

對於情感語料,我們使用了eNTERFACE’05情感數據集。44名試驗人員以6種基本情緒閱讀句子,包括憤怒、厭惡、恐懼、快樂、悲傷和驚訝。每種情感類別包括5個句子,錄製每個句子大概持續4秒。這些試驗人員都不是演員,他們的面部表情都是不專業的,而且每個人都不一樣。


3.2 語音和視覺特徵

對於語音特徵,我們從INTERSPEECH 2009 Emotion Challenge中選取了384維的特徵,包括16個低水平表示符(LLDs)和他們一階的delta係數以及12 functionals。LLD特徵是使用openSMILE抽取出來的,幀長爲40ms,幀位移爲10ms。

對於視覺特徵,我們使用了由MPEG-4規範定義的面部動畫參數,用於虛擬說話人的動畫,其中包括68個FAPs和66 low-levels ones和2 high-level ones。low-level的FAPs代表了基礎面部行動的完全集;2 high-level FAPs分別代表了發音嘴型和表情。


4 方法

在語音驅動的說話虛擬人中,發音參數主要由聲音輸入決定。應在建模協同發音現象時考慮語境信息。發音參數也受和不同的情感狀態有關的面部表情影響。情感狀態、面部表情和脣動間的交互會隨着時間的變化而變化,這取決於聲音和語境信息。迴歸模型應該能從訓練語料中挖掘出這樣關係。本文采用了DBLSTM迴歸模型來預測面部參數。

設計了5個方法來挖掘使用中立語料信息來提升情感說話虛擬人表現的可能性。5種方法的結構如圖 1所示。


4.1 Method(a): 情感數據訓練的網絡

爲了從聲音數據中預測出情緒人臉參數。最直接的方法和SOTA方法都是使用含有不同情感狀態的情感語料訓練出一個迴歸模型或者映射模型。

圖1 a所示,迴歸模型學習到了面部特徵和情感狀態間的交互是隨時間變化的,並且考慮到了語音特徵和語境信息。令XEX_E表示輸入的情感語音特徵(E-LLD),YEY_E表示目標的面部特徵(E-FAPs),要處理的問題是找到一個優化的情感迴歸模型FEF_E滿足:

但是,爲了訓練這樣的迴歸模型,需要包含不同情感的大型語料庫。本文的角度是僅僅使用有限的情感雙峯數據,由於訓練數據的不充足,DBLSTM訓練的效果可能會很差。


4.2 Method(b): 混合數據訓練的網絡

爲了利用到中性的數據,一種方法是混合中立語料和情感語料,使用混合後的數據進行模型的訓練。如圖1 b所示,隨機地從中立語料或情感語料中選取訓練數據,輸入到DBLSTM模型中,最小化如下的函數:

其中XNEX_{NE}YNEY_{NE}表示描述從混合的中立-情感(neutral-emorional)語料中得到的訓練數據的LLD(low level descriptors)和FAPs(facial animation parameters)。

對式(2)進行優化可能會導致中性語料庫和情感語料庫之間迴歸模型的折衷結果。但是中性的數據量遠大於每種情緒類別下的情感數據量,中性數據和情感數據間不均衡的分佈可能會導致當需要有情緒的表情時結果卻是中性的面部表情。


4.3 Method( c ): 重訓練的網絡

爲了解決Method (b)中的問題,我們提出了另一個方法,可以人爲地調整中性數據和情感數據之間的影響比例。如圖1 c所示,首先使用中性語料庫訓練DBLSTM網絡,然後使用情感語料庫中的數據重訓練/微調,以讓原始網絡中的參數可以適用到情感模型中。重訓練的epoch數可以人爲地調整以適應於情感語料庫的影響。模型可以形式化爲如下的形式:

其中FNEF_{N\rightarrow E}表示重訓練的DBLSTM網絡,XN,YNX_N, Y_N分別表示中性的語音特徵(N-LLD)和中性的面部特徵(N-FAPs)。

在訓練的第一階段(式(3)),FNEF_{N\rightarrow E}中對中性信息敏感的節點被激活。在第二階段(式(4)),和情感信息有關的節點被激活。對於兩個語料庫都敏感的節點,它們的權重由式(3)和式(4)進行調整。這種覆蓋的程度由第二階段的epoch數量決定

通過選擇合適的epoch數量,我們可以得到在中性數據和情感數據間取得了平衡的理想的模型,並且和僅使用情感數據的模型相比有着更好的性能。然而,決定一個恰當的epoch數是很難的,這與中性數據和情感數據的質量和數量有關。而且,人爲選取epoch數可能會對模型引入主觀因素


4.4 Method(d): 雙監督網絡

爲了避免Method©中的人爲因素並且解決Method(b)中數據不平衡的問題,我們進一步提出了Method(d),即雙監督(dual-supervised)的DBLSTM網絡。

本方法最初的想法是:情感面部表現依賴於中性表現。後者提供了初步的面部動畫,例如中性的脣動和表現;前者是由中性表現進一步變形而來的。

圖1 d所示,我們首先使用N-LLD作爲輸入,使用中性數據訓練了一個DBLSTM網絡,N-FAPs作爲輸出。然後將E-LLD作爲神經網絡的輸入以得到預測的FAPs(P-FAPs)。P-FAPs和直接從情感語料庫中抽取出的E-FAPs是幀對幀對齊的。然後訓練情感DBLSTM網絡,分別將幀對齊的P-FAPs和E-FAPs作爲情感DBLSTM網絡的輸入和輸出:

通過中立DBLSTM網絡FNF_N(式(5))可以從中性語料庫中得到和初步面部動畫相關的信息。然後通過FN(XE)F_N(X_E)預測轉換成了P-FAPs。通過優化式(6),考慮從中性數據到表情表達的變形信息的獲取。


4.5 Method(e): 級聯的網絡

情感聲音特徵中隱含的情感信息對於合成有表現力的虛擬說話人是很關鍵的。受此啓發,我們對Method(d)的方法略加修改得到了新方法Method(e),如圖1 e所示。在此方法中,將有情感的E-LLD和預測的P-FAPs級聯起來作爲輸入,來訓練情感的DBLSTM網絡,E-FAPs是輸出:

和Method(d)不同的是,我們將XEX_E和預測的P-FAPs FN(XE)F_N(X_E)拼接起來,如式(8)所示,來增強有情感的聲音特徵對最終的面部動畫表現的影響。


5 實驗和結果

5.1 實驗設置

  • Adam是優化器;
  • BILSTM隱層的激活函數是tanh;
  • 最後一層迴歸層的激活函數是線性的;
  • 所有的DBLSTM網絡都有3層隱層,每一層有100個單元;
  • 設置Dropout層(dropout=0.3)來避免過擬合;
  • LLD特徵的維度是384維,FAP特徵的維度是46維。

對於情感語料庫,我們使用前38個測試者的前4個話語(所有6個情感類別)作爲訓練集,其餘的6個測試者的最後一個話語(utterances)作爲測試集。從訓練集隨機地選取10個話語作爲驗證集。

在Method(b)中,中性語料庫中的321個話語都被添加到了訓練集中。在Method©, (d)和(e)中,中性語料庫中隨機選擇出10個話語作爲驗證集,其餘的話語添加到訓練集中。


5.2 對不同情緒的客觀評價

對模型預測出的FAPs和ground truth使用RMSE(root mean squared error)來評估模型的性能。實驗結果如圖 2所示,反應了5種不同的方法對6種情緒的RMSE值。這反應了不同的迴歸模型如何適用於不同的情緒。

圖中平均的RMSE值結果可以看出,Method(e)的效果最好,Method©的方法和其也是可比擬的。結果驗證了中性的語料庫數據爲生成具有表現力的虛擬說話人提供了有用的信息。

對於驚訝(surprise)和厭惡(disgust)情緒來說,僅僅使用情感數據訓練的方法Method(a)取得了最好的效果。然而,對於悲傷(sadness)來說,Method(a)的效果最差。可能是因爲如果要表達驚訝和厭惡的情緒,需要誇大的面部表情和脣動,表達悲傷的情緒則面部表情較爲平和。比起誇大的表達,中性語料庫中的信息對於平和的表達更具有價值。


5.3 幀級別的客觀評價

作者還進一步使用RMSE評價指標,在幀級別比較了Method(e)和文獻[1]中提出的方法。對比的實驗結果如圖 3所示。可以看出對於絕大多數幀來說,Method(e)預測結果的RMSE值更小。結果表明,本文提出的方法可以有效地對情緒狀態、面部表情和嘴脣動作間的交互進行綜合的建模。


5.4 主觀評價

我們進一步進行了主觀評價來在虛擬說話人系統[2]上測試預測出的FAPs。針對測試集中的話語,模型預測出FAP值,使用這些值生成3D虛擬說話人的視頻。讓6個測試者根據視頻中說話者的表現力和自然性對每個視頻進行打分,分值範圍爲1~5(‘1’ (bad), ‘2’ (poor), ‘3’ (fair), ‘4’ (good) and ‘5’ (excellent) )。每個方法針對不同情緒的平均分值(mean opinion scores, MOS)如圖 4所示。

從結果可以看出,平均來說,級聯的DBLSTM網絡(Method(e))在主觀評測中表現的效果最好,這一結果也和客觀評價相一致,表明了本文提出方法的有效性。


6 總結和展望

本文提出了幾個不同的迴歸模型來從聲音信息中預測出情緒面部參數,用於生成有表現力的虛擬說話人。其中,發音參數由聲音輸入決定,並受不同的情緒狀態下的面部表情的影響

情緒狀態、面部表情和脣動間的交互依賴於聲音和語境信息,並隨着時間的變化而變化。爲了捕獲到這樣的複雜交互信息,我們採用DBLSTM作爲迴歸模型。由於情感數據的有限,我們提出了一些方法,考察了在使用大型的中性語料庫和少量的情感語料庫的條件下,捕獲到這些交互信息的不同的可能性。

實驗表明使用中性語料庫有助於提高合成的虛擬說話人的性能。此外,作者還發現應用中性語料庫最佳的方法是級聯的DBLSTM網絡

未來工作:將文中提到的不同的結構合併到合成面部動畫(synthesis facial animation)中,並嘗試在單個迴歸框架中爲所有的情緒生成有表現力的面部特徵。


本文針對的任務是合成有面部表情的虛擬說話人,模型的輸入是語音特徵,輸出是用於虛擬說話人系統的面部特徵。

亮點在於:以現有的有情感信息的語料庫數據較少爲動機,提出使用大型的情感表現爲中性的語料庫作爲補充。

提出了5個模型,結果表明級聯的DBLSTM網絡(Method(e))表現效果最好。


參考文獻

[1] J. Jia, Z. Wu, S. Zhang,H. Meng, L. Cai, “Head and facial gestures synthesis using PAD model for an expressive talking avatar,” Multimedia Tools and Applications, 73(1): 439-461, 2014.

[2] Z. Wu, S. Zhang, L. Cai, H. Meng, “Real-time synthesis of Chinese visual speech and facial expressions using MPEG4 FAP features in a three-dimensional avatar,” in Proc. ICSLP, pp. 1802-1805, 2006.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章