人臉合成系列近期文章整理

StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation

重要，單開一篇筆記。

FaceID-GAN: Learning a Symmetry Three-Player GAN for Identity-Preserving Face Synthesis

CVPR 2018 重要，單開一篇筆記。

Conditional Face Synthesis for Data Augmentation

PRCV 2018
使用VAE+CGAN
三個創新點：

用增廣的數據輔助訓練
多尺度判別器獲得高質量圖像
使用identity-preserving loss和classification matching loss保證id不變，特徵匹配loss提高訓練穩定性。

判別器同時做real/fake分類和id分類，在判別器的最後三層特徵圖上做FM（特徵匹配） loss，又用一個旁觀的識別模型做感知loss，與FM類似。VAE生成的是兩張圖，一是不加噪生成的重構圖，二是加噪生成的合成圖，重構圖做重構loss，重構和合成圖都做判別損失。

最終實驗，在FaceScrub上train生成模型和識別模型，在LFW上直接test，沒有對LFW作增強。兩種增強方式，一是爲已知id生成更多樣本；二是生成新id。竟然都word，但是第二種帶來的提高不大。但是沒有試過兩種方式都用。由於訓練集和測試集不是一個，所以準確率僅92-93，畢竟太高了就不能體現增強的效果了，應該是出於這個考慮沒有在LFW上訓練。
對實驗的可靠性持懷疑態度。。

Generating Photo-Realistic Training Data to Improve Face Recognition Accuracy

Work in progress...ICML 2019?
目標也是要生成新的id參與人臉識別任務的訓練。將one-hot的id向量經過一個enbedding網絡變爲連續的高斯分佈，輸出爲E(y)，用對抗自編碼器的思想迫使E(y)服從高斯。然後再採樣一個噪聲向量znid搞成id無關的屬性信息。注意，用InfoGAN學習id無關的屬性，不需要屬性的標註，但學出來的東西應該不如帶屬性標註的方法（如StarGAN）靠譜。實驗部分沒看，作者肯定是從E(y)中隨機採樣，當做新的id編碼，用生成的圖像參與訓練。整個生成架構使用WGAN-gp+PGGAN。

Generative Adversarial Network with Spatial Attention for Face Attribute Editing

ECCV 2018 Shiguang Shan團隊
文章的核心就是引入空間Attention機制，引導屬性edit，其實Attention機制Dacheng Tao老師和Ian Goodfellow今年都做了類似的工作，特別是Dacheng老師的那一篇，可以說跟這一篇幾乎完全一樣，所以這篇文章感覺有點水。Motivation很直接，就是引入空間的Attention，讓模型有目的地去修改像素，而不是像CycleGAN或者StarGAN一樣全圖改。作者也提到了，這種方法可以用來做數據增強，有利於人臉識別任務。

本文以CycleGAN、StarGAN和ResGAN作爲baseline，其中ResGAN的想法就是學殘差圖，再跟原圖相加，其實我之前做過類似實驗，不太靠譜。

本文提出的方法，生成器只有一個，類似StarGAN，以原圖和條件作爲輸入，但是條件只能有一個，這一點比StarGAN弱，作者說了這是下一步改進的方向，照理說多條件的實現也沒多難？難道是因爲效果不好，或者沒時間做了？生成器分爲兩個部分，一個是attribute manipulation net（AMN），另一個是spatial attention net（SAN），AMN任務是改像素，SAN任務是找到關鍵的修改區域。AMN的輸入是條件+image，四通道；SAN只輸入圖像，三通道，這裏我表示嚴重的懷疑，如果SAN的輸入沒有條件，如何focus到目標區域？畢竟目標區域和條件是直接相關的啊！算了，繼續往下扯。判別器輸入是一張圖像，輸出兩個東西，一是src，即來源於真實分佈還是僞造分佈；二是cls，即輸入圖像是否具有目標屬性。兩個輸出都是標量，表示概率。這裏對第二個輸出cls又表示嚴重的懷疑，模型要弄的屬性有很多個，雖說每次只能改一個，但是判別器哪裏知道你要判斷的是哪個屬性？？？

實驗部分就不多說了。主要提一下這個東西用於人臉識別任務的實驗，個人對於人臉的這幾個任務還不太熟，說實話這裏看的還不是很明白，可能寫的有點問題。作者並沒有用生成的圖像參與訓練，而是在測試集上對於每個id生成幾個新樣本。我的理解是，對於每個query樣本，隨便編輯兩下多搞出幾個增廣樣本，再分別送到模型裏去查？也就是把單查詢任務搞成多查詢，讓性能得到提高。作者最後寫道，在CelebA上做了smile的增強之後性能有所下降，可能是因爲數據庫裏smile的臉比較少。

Show, Attend and Translate: Unpaired Multi-Domain Image-to-Image Translation with Visual Attention

CVPR 2019？？
StarGAN基礎上的改進，主要內容：一是target label vector應該加在哪個階段，結論是不應該跟原始圖像拼起來，而應該加在中間的特徵上；二是加了action vector，取值是-1,0,1，代表編輯的方向，根據輸入圖像的屬性和目標屬性來計算，這樣可以更好地引導生成，實際上就是讓生成器不需要學習輸入圖像所屬的域，StarGAN中的生成器實際上需要隱式地把這個東西給學到；三是Attention，這個跟Shiguang Shan老師那一篇可以說是一毛一樣的。
關於視覺attention的作用，文中給的說法是：能夠捕捉輸入圖像和目標domain之間的相關性，使得domain-unrelated的區域得以保留。
此文的貢獻有限，而且action vector無疑增加了對標註的要求，必須知道輸入圖像相應的屬性模型才能工作，這個貢獻，我覺得不行。如果投的是CVPR 2019，我覺得中不了。。。希望作者不要幹我。

Attribute-Guided Face Generation Using Conditional CycleGAN

ECCV 2018 騰訊優圖
這篇要做的事情是超分辨，給定低分辨率的圖像和人臉的屬性，生成高分辨率的圖像，大概是這意思，目前關係不大，就先不看了。

人臉合成系列近期文章整理

StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation

FaceID-GAN: Learning a Symmetry Three-Player GAN for Identity-Preserving Face Synthesis

Conditional Face Synthesis for Data Augmentation

Generating Photo-Realistic Training Data to Improve Face Recognition Accuracy

Generative Adversarial Network with Spatial Attention for Face Attribute Editing

Show, Attend and Translate: Unpaired Multi-Domain Image-to-Image Translation with Visual Attention

Attribute-Guided Face Generation Using Conditional CycleGAN

[轉帖]cpupower

今天，昨天，近七天，近30天，近90天，js封裝

CACD論文閱讀（轉）

Progressive Growing GANs簡介+PyTorch復現

Cycle GAN 與 Star GAN

論文閱讀：Iccv 2013 Hidden Factor Analysis for Age Invariant Face Recognition

人臉合成系列近期文章整理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結