“聽音辨臉”的超能力，你想擁有嗎？

作者：夏初

來源：微信公衆號|3D視覺工坊（系投稿）

3D視覺精品文章彙總：https://github.com/qxiaofan/awesome-3D-Vision-Papers/

論文：Speech2Face: Learning the Face Behind a Voice (CVPR 2019,MIT)

項目地址：在公衆號「3D視覺工坊」，後臺回覆「Speech2Face」，即可直接下載。

我們可以從一個人的說話方式推斷出多少？在本文中，研究人員研究了從講話人的簡短錄音中重建該人的面部圖像的任務。他們設計並訓練了一個深層的神經網絡，使用來自Internet / Youtube的數百萬人的自然視頻來執行此任務。在訓練過程中，模型學習視聽和麪部表情的相關性，從而使其產生可捕捉說話者各種身體屬性（例如年齡，性別和種族）的圖像。這是通過利用互聯網視頻中人臉和語音的自然共現以自我監督的方式完成的，而無需明確地對屬性建模。直接從音頻獲得的重構揭示了臉部和聲音之間的相關性。研究人員評估並以數字方式量化從音頻中重建Speech2Face的方式如何以及以何種方式類似於揚聲器的真實面部圖像。

Speech2Face模型：

自然面部圖像中的面部表情，頭部姿勢，遮擋和照明條件的巨大差異，使Speech2Face模型的設計和訓練變得不那麼重要。例如，從輸入語音退回到圖像像素的直接方法不起作用；這樣的模型必須學會排除數據中許多不相關的變化，並隱式提取人臉的有意義的內部表示，這本身就是一項艱鉅的任務。

爲了避開這些挑戰，研究人員訓練模型以迴歸到人臉的低維中間表示。利用VGG-Face模型（在大型人臉數據集上預先訓練的人臉識別模型），並從網絡的倒數第二層提取人臉特徵。這些面部特徵顯示爲包含足夠的信息以重建相應的面部圖像，並且具有一定的魯棒性，模型整體框架如下。

給這個網絡輸入一個複雜的聲譜圖，它將會輸出4096-D面部特徵，然後使用預訓練的面部解碼器將其還原成面部的標準圖像。訓練模塊在圖中用橙色部分標記。在訓練過程中，Speech2Face模型不會直接用人臉圖像與原始圖像進行對比，而是與原始圖像的4096-D面部特徵對比，省略了恢復面部圖像的步驟。在訓練完成後，模型在推理過程中才會使用面部解碼器恢復人臉圖像。訓練過程使用的是AVSpeech數據集，它包含幾百萬個YouTube視頻，超過10萬個人物的語音-面部數據。在具體細節上，研究使用的中每個視頻片段開頭最多6秒鐘的音頻，並從中裁剪出人臉面部趨於，調整到224×224像素。

Speech2Face管道包括兩個主要組件：1）語音編碼器，語音編碼器模塊是一個CNN，它以語音的複雜聲譜圖作爲輸入，並預測將與相關聯的臉部相對應的低維臉部特徵；2）面部解碼器，面部解碼器的輸入爲低維面部特徵，並以標準形式（正面和中性表情）產生面部圖像。在訓練過程中，人臉解碼器是固定的，只訓練預測人臉特徵的語音編碼器。語音編碼器是作者自己設計和訓練的模型，而面部解碼器使用的是前人提出的模型。將實驗結果更進一步，Speech2Face還能用於人臉檢索。

研究結果：

Speech2Face能較好地識別出性別，對白種人和亞洲人也能較好地分辨出來，另外對30-40歲和70歲的年齡段聲音命中率稍微高一些。Speech2Face似乎傾向將30歲以下的說話者年齡猜大，將40-70歲的說話者年齡猜小。除了比較基礎的性別、年齡和種族，該模型甚至能猜中一些面部特徵，比如說鼻子的結構、嘴脣的厚度和形狀、咬合情況，以及大概的面部骨架。基本上輸入的語音時間越長，預測的準確度會越高。但是該項研究的目的不是爲了準確地還原說話者的模樣，主要是爲了研究語音跟相貌之間的相關性。在人口屬性評估方面研究人員使用了Face++，他們通過在原始圖像和Speech2Face重建圖像上運行Face++分類器，評估並比較了年齡，性別和種族。此外，研究人員也從顱面屬性(獲取面部的比率和距離)，特徵相似度(直接測量預測特徵與從說話者原始面部圖像獲得的真實特徵之間的餘弦距離)等方面進行比較。

(a)人口屬性評估

(b)顱面屬性

(c)特徵相似度

研究應用：

如下圖所示，研究人員從語音中重建的面部圖像可用於從語音中生成說話者的個性化卡通形象。研究人員使用Gboard(Android手機上可用的鍵盤應用程序)，它還能夠分析自拍圖像以產生卡通版的臉。可以看出，Speech2Face的重構能夠很好地捕獲面部特徵，以使應用程序正常工作。

研究不足：

若根據語言來預測種族，那麼一個人說不同的語言會導致不同的預測結果。研究人員讓一個亞洲男性分別說英語和漢語，結果分別得到了2張不同的面孔。但是，模型有時候也能正確預測結果，比如讓一個亞洲小女孩說英文，雖然恢復出的圖像和本人有差距，但仍可以看出黃種人的面部特徵。通常，觀察到混合的行爲，需要更徹底的檢查以確定模型在多大程度上依賴語言。

除此以外，在其他的一些情況上，模型也會出錯，比如：變聲期之前的兒童，會導致模型誤判性別發生錯誤；口音與種族特徵不匹配；將老人識別爲年輕人，或者是年輕人識別爲老人。研究人員指出，Speech2Face 的侷限性，部分原因來自數據集裏的說話者本身種族多樣性不夠豐富，這也導致了它辨認黑種人聲音的能力比較弱。

麻省理工學院的研究人員在該項目的GitHub頁面提出警告，承認該技術引發了關於隱私和歧視的問題。雖然這是純粹的學術調查，但研究人員認爲由於面部信息的潛在敏感性，在文章中明確討論一套道德考慮因素很重要，對此進行任何進一步調查或實際使用都將會仔細測試，以確保訓練數據能夠代表預期的用戶人羣。

備註：作者也是我們「3D視覺從入門到精通」特邀嘉賓：一個超乾貨的3D視覺學習社區

本文僅做學術分享，如有侵權，請聯繫刪文。

“聽音辨臉”的超能力，你想擁有嗎？

DAPPER 事務 TRANSACTION

Bags of Binary Words | 詞袋模型解析

多視圖立體匹配論文分享：BlendedMVS

EF-Net一種適用於雙流SOD的有效檢測模型（Pattern Recognition）

Bundle Adjustment原理及應用(附實戰代碼)

一文詳解ORB-SLAM3中的地圖管理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結