人臉合成系列近期文章整理

StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation

重要,單開一篇筆記。

FaceID-GAN: Learning a Symmetry Three-Player GAN for Identity-Preserving Face Synthesis

CVPR 2018 重要,單開一篇筆記。

Conditional Face Synthesis for Data Augmentation

PRCV 2018
使用VAE+CGAN
三個創新點:

  • 用增廣的數據輔助訓練
  • 多尺度判別器獲得高質量圖像
  • 使用identity-preserving loss和classification matching loss保證id不變,特徵匹配loss提高訓練穩定性。

判別器同時做real/fake分類和id分類,在判別器的最後三層特徵圖上做FM(特徵匹配) loss,又用一個旁觀的識別模型做感知loss,與FM類似。VAE生成的是兩張圖,一是不加噪生成的重構圖,二是加噪生成的合成圖,重構圖做重構loss,重構和合成圖都做判別損失。

最終實驗,在FaceScrub上train生成模型和識別模型,在LFW上直接test,沒有對LFW作增強。兩種增強方式,一是爲已知id生成更多樣本;二是生成新id。竟然都word,但是第二種帶來的提高不大。但是沒有試過兩種方式都用。由於訓練集和測試集不是一個,所以準確率僅92-93,畢竟太高了就不能體現增強的效果了,應該是出於這個考慮沒有在LFW上訓練。
對實驗的可靠性持懷疑態度。。

Generating Photo-Realistic Training Data to Improve Face Recognition Accuracy

Work in progress...ICML 2019?
目標也是要生成新的id參與人臉識別任務的訓練。將one-hot的id向量經過一個enbedding網絡變爲連續的高斯分佈,輸出爲E(y),用對抗自編碼器的思想迫使E(y)服從高斯。然後再採樣一個噪聲向量znidznid搞成id無關的屬性信息。注意,用InfoGAN學習id無關的屬性,不需要屬性的標註,但學出來的東西應該不如帶屬性標註的方法(如StarGAN)靠譜。實驗部分沒看,作者肯定是從E(y)中隨機採樣,當做新的id編碼,用生成的圖像參與訓練。整個生成架構使用WGAN-gp+PGGAN。

Generative Adversarial Network with Spatial Attention for Face Attribute Editing

ECCV 2018 Shiguang Shan團隊
文章的核心就是引入空間Attention機制,引導屬性edit,其實Attention機制Dacheng Tao老師和Ian Goodfellow今年都做了類似的工作,特別是Dacheng老師的那一篇,可以說跟這一篇幾乎完全一樣,所以這篇文章感覺有點水。Motivation很直接,就是引入空間的Attention,讓模型有目的地去修改像素,而不是像CycleGAN或者StarGAN一樣全圖改。作者也提到了,這種方法可以用來做數據增強,有利於人臉識別任務。

本文以CycleGAN、StarGAN和ResGAN作爲baseline,其中ResGAN的想法就是學殘差圖,再跟原圖相加,其實我之前做過類似實驗,不太靠譜。

本文提出的方法,生成器只有一個,類似StarGAN,以原圖和條件作爲輸入,但是條件只能有一個,這一點比StarGAN弱,作者說了這是下一步改進的方向,照理說多條件的實現也沒多難?難道是因爲效果不好,或者沒時間做了?生成器分爲兩個部分,一個是attribute manipulation net(AMN),另一個是spatial attention net(SAN),AMN任務是改像素,SAN任務是找到關鍵的修改區域。AMN的輸入是條件+image,四通道;SAN只輸入圖像,三通道,這裏我表示嚴重的懷疑,如果SAN的輸入沒有條件,如何focus到目標區域?畢竟目標區域和條件是直接相關的啊!算了,繼續往下扯。判別器輸入是一張圖像,輸出兩個東西,一是src,即來源於真實分佈還是僞造分佈;二是cls,即輸入圖像是否具有目標屬性。兩個輸出都是標量,表示概率。這裏對第二個輸出cls又表示嚴重的懷疑,模型要弄的屬性有很多個,雖說每次只能改一個,但是判別器哪裏知道你要判斷的是哪個屬性???

實驗部分就不多說了。主要提一下這個東西用於人臉識別任務的實驗,個人對於人臉的這幾個任務還不太熟,說實話這裏看的還不是很明白,可能寫的有點問題。作者並沒有用生成的圖像參與訓練,而是在測試集上對於每個id生成幾個新樣本。我的理解是,對於每個query樣本,隨便編輯兩下多搞出幾個增廣樣本,再分別送到模型裏去查?也就是把單查詢任務搞成多查詢,讓性能得到提高。作者最後寫道,在CelebA上做了smile的增強之後性能有所下降,可能是因爲數據庫裏smile的臉比較少。

Show, Attend and Translate: Unpaired Multi-Domain Image-to-Image Translation with Visual Attention

CVPR 2019??
StarGAN基礎上的改進,主要內容:一是target label vector應該加在哪個階段,結論是不應該跟原始圖像拼起來,而應該加在中間的特徵上;二是加了action vector,取值是-1,0,1,代表編輯的方向,根據輸入圖像的屬性和目標屬性來計算,這樣可以更好地引導生成,實際上就是讓生成器不需要學習輸入圖像所屬的域,StarGAN中的生成器實際上需要隱式地把這個東西給學到;三是Attention,這個跟Shiguang Shan老師那一篇可以說是一毛一樣的。
關於視覺attention的作用,文中給的說法是:能夠捕捉輸入圖像和目標domain之間的相關性,使得domain-unrelated的區域得以保留。
此文的貢獻有限,而且action vector無疑增加了對標註的要求,必須知道輸入圖像相應的屬性模型才能工作,這個貢獻,我覺得不行。如果投的是CVPR 2019,我覺得中不了。。。希望作者不要幹我。

Attribute-Guided Face Generation Using Conditional CycleGAN

ECCV 2018 騰訊優圖
這篇要做的事情是超分辨,給定低分辨率的圖像和人臉的屬性,生成高分辨率的圖像,大概是這意思,目前關係不大,就先不看了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章