Paper Reading Note
【說明文字均在圖片下方】
URL:
https://arxiv.org/pdf/1901.09764.pdf
TL;DR
cvpr2019的一篇文章,提出了一種新型的GAN結構CollaGAN,可以從多角度圖像協同提取信息用GAN生成未知角度的圖像。相較於點到點的StarGAN和CycleGAN具有更好的效果和更高的性能。
上圖中圖a、b分別是CycleGAN和StarGAN的示意圖,他們均能夠根據一層domain的信息遷移到一個新的domain上。但是均無法利用其它domain的信息,但實際上,其它層同樣包含許多有效的信息可以讓GAN學習的更好。
Model
模型框架如上圖所示,具體流程如下:
- 作者的判別器結構被分成了D_gan和D_clsf,D_gan和傳統判別器相同,而增加了一個用於分類domain的判別。
- 首先將真實圖像放入到判別器中作分類訓練。
- 用它的互補集的domain圖像放入到生成器中生成假圖像(公式1)。
公式1:
- 將假圖像分別於互補集中的2個組合再次放入生成器中,生成在假a條件下的原始圖像的假圖像(公式2)。
公式2:
- 將生成的假圖像與原始圖像作l1正則,相加得到loss(公式3)。
公式3:
- 再將第4步生成的假圖像放入判別器中訓練判別器判斷真僞的能力,判別器爲了防止梯度消失的問題採用了最小二乘作爲損失(公式4),而分類判別器採用了信息熵作爲損失(公式5)。
公式4:
公式5:
- 重複以上步驟直到收斂或達到指定epoch。
作者還採用了用於判斷image quality的Structual Similarity Index Loss(公式6,7)
公式6:
這裏的μ和σ是全局的均值和方差。
公式7:
另外,作者說明了爲了能夠得到更好的結果,對於不同的task,生成器的內部結構也不完全相同。
Results
從結果來看作者的這個GAN效果還是挺好的。
這裏是人腦剪影數據。左圖是原始數據,問號是確實部分。右圖是本文的方法,CycleGAN,StarGAN和真實圖像對比,可以看到細節方面都很清晰。
這裏是在不同光源上相同圖像的生成任務。
這裏是對不同表情的圖像生成任務。
Thoughts
生成器的結構解決了缺失數據如何訓練的問題。
之前讀過的GAN都是由單一圖像生成的方法,本文提供的協同生成可以在ReID中一試。