10萬視頻,所有面部圖像均獲授權,Facebook創建大規模Deepfake數據集


本文經授權轉載自機器之心(almosthuman2014),未經授權禁止二次轉載與摘編。

本文約6000字,建議閱讀10+分鐘

DFDC數據集是目前最大的公開可用換臉視頻數據集。

[ 摘要 ]前不久,Facebook 主辦的 Deepfake 檢測挑戰賽(DFDC)落下帷幕。近日,Facebook撰文介紹了其構建的大規模 Deepfake 數據集 DFDC。

數據集經常存在有關版權、隱私方面的爭議,而 Facebook 構建的這個數據集規避了這方面的風險,它包含的所有數據均獲得圖像所有者本人授權。

Deepfakes 是近期出現的一種直接可用的視頻換臉技術。除了 Deepfakes 以外,目前還出現了大量基於 GAN 的換臉方法(而且還帶有代碼)。

這類技術給人們的隱私安全等帶來了威脅。爲了應對此類威脅,Facebook 創建了一個大型換臉視頻數據集 DFDC 以支持 Deepfakes 檢測模型的訓練,並組織了 Deepfake 檢測挑戰賽。

該數據集的亮點在於,所有對象均同意數據集使用其圖像或視頻,並允許在數據集構建過程中對其數據進行修改

DFDC 數據集是目前最大的公開可用換臉視頻數據集,包含來自 3426 名付費演員的 10 萬多個視頻片段。這些視頻通過多種 Deepfake、GAN 和 non-learned 方法生成。

Deepfake 數據集的規模對比。不管從幀數還是視頻數量來看,DFDC 數據集都比其他數據集大一個數量級

下面,我們來看 DFDC 數據集的構建過程和方法。

源數據

很多 Deepfake 或換臉數據集中的片段來自新聞或簡報室等非自然環境。而且,視頻中的人物可能壓根就沒授權數據集使用他們的面部圖像或視頻。

基於此,Facebook 沒有使用公開可用的視頻來構建數據集,而是先向一些個人獲得錄製視頻、將視頻用於構建機器學習數據集,以及使用機器學習模型處理他們的面部圖像的授權,進而得到了一組視頻。

爲了反映 Deepfake 視頻對非知名人士造成的潛在傷害,該數據集中的視頻均在沒有專業打光或化妝的自然環境下錄製。不過視頻錄製使用的是高分辨率攝像機。

該數據集中的源數據涉及:

  1. 3426 名對象,每個對象平均錄製 14.4 個視頻,大部分視頻的分辨率爲 1080p ;

  2. 48,190 個視頻,每個視頻的平均長度爲 68.8 秒,共計長度 38.4 天;

  3. 原始數據超過 25 TB。

下表展示了不同 Deepfake 數據集的量化對比情況:

從中我們可以看出,DFDC 數據集的規模最大,涉及到的對象數量最多,且獲得所有對象的授權。

數據集創建者使用內部人臉追蹤和對齊算法對源視頻進行預處理,將所有人臉幀剪裁、對齊,並將大小重新調整爲 256x256 像素。

數據集創建過程中用到的換臉方法

該數據集使用多種方法生成換臉視頻,這些方法涵蓋了數據集創建時最流行的一些換臉技術。每種方法生成的視頻數量並不均等,生成最多換臉視頻的方法是 Deepfake Autoencoder (DFAE)。

具體而言,DFDC 數據集創建過程中使用的換臉方法包括:

  • DFAE:Deepfake 自編碼器(DF-128、DF-256),數據集創建過程中使用模型的輸入 / 輸出分辨率爲 128x128 和 256x256。

  • MM/NN face swap:使用基於自定義幀的 morphable-mask 模型進行換臉。

  • NTH:在 few-shot 和 one-shot 學習環境下,生成逼真的說話人頭部 [31]。

  • FSGAN:使用 GAN 進行換臉 [20]。

  • StyleGAN:參見《英偉達再出 GAN 神作!多層次特徵的風格遷移人臉生成器》。

  • Refinement:對混合後的人臉使用簡單的銳化濾波器可以極大地提升最終視頻中的感知質量,且幾乎不需要額外的成本。

  • audio swapping:使用 [22] 中的 TTS Skins voice conversion 方法進行音頻轉換。

不同方法生成人臉的質量參見下圖:

數據集構成

訓練集:訓練集包括 119,154 個十秒視頻片段,涉及 486 個不同的對象。其中 10 萬個視頻包含 Deepfakes 內容,也就是說數據集中 83.9% 的視頻爲合成視頻。這些 Deepfakes 視頻通過 DFAE、MM/NN face swap、NTH 和 FSGAN 方法生成得到,且未使用任何數據增強。

驗證集:驗證集是 DFDC 競賽中用於計算排行榜位置的公共測試集。該數據集包含 4000 個十秒視頻,其中半數(2000 個視頻)包含 Deepfakes 內容。驗證集共涉及 214 個不同的對象,且與訓練集並不重合。此外,該數據集使用的 Deepfakes 生成方法相比之前多了一項——StyleGAN。該數據集中大約 79% 的視頻應用了數據增強技術。

測試集:私有測試集包含一萬個十秒視頻。與公共測試集一樣,其中一半爲 Deepfakes 視頻。但是,二者的區別在於,私有測試集中一半視頻來自網絡,另一半來自源數據。

讀者可以在以下地址查看 DFDC 競賽使用的數據:

https://www.kaggle.com/c/deepfake-detection-challenge/data

數據增強

Facebook 團隊使用多種數據增強技術,如幾何變換或干擾等。主要的增強方法如下所示:

  1. 干擾:將各種物體(圖像、形狀、文本等)疊加在視頻上;

  2. 增強:對視頻應用幾何變換、顏色變換、幀率更改等。

數據增強示例參見下圖:

論文鏈接:

https://arxiv.org/pdf/2006.07397.pdf

編輯:黃繼彥

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章