筆記:pixel-level domain transfer

本文結合對抗網絡以及深度網絡生成圖像來不同域之間樣本生成的問題,根據源域上的樣本生成目標域上對應的樣本。這個思路是用生成模型encoder獲取源域上低維的語義信息,然後通過decoder來生成目標域上的圖像,將encoder和decoder總稱爲converter,從而根據源域上的樣本生成目標域上的樣本。爲了很好的訓練converter,本文結合了兩個判別模型來輔助訓練。具體而言,其中生成模型中,encoder首先學習一個訓練數據的64維語義信息;然後通過decoder將語義向量生成對應的目標域上的樣本。判別模型中,real/fake-discriminator,是爲了讓生成模型生成的圖片儘可能的與原有樣本之間沒有可分性,這個和之前GAN網絡中的判別模型作用類似。Domain discriminator相當於在訓練的生成模型上添加了一個pair-wise的損失,保證了生成模型生成的目標域上的圖片保留了源域上樣本語義信息。最終整個網絡的結構如下:
architecture
其中最上面的對應網絡中的生成模型,第二層的網絡結構對應real/fake classifier,第三層網絡對應的domain classifier。下面從這個三層結構以及訓練方法來對文章內容進行介紹。
1. convertC:由encoder 和decoder構成。Encoder提取圖片的低維(64維)語義信息。Decoder根據語義信息生成目標域上的樣本。這裏需要注意的地方是源域和目標域的樣本並不是一對一的關係,而是一對多的關係。這種關係可以用下圖表示:
source2target
源域上有人,目標域上沒有人,但是由於從各個角度對應了不同的圖片,所以目標域上的樣本各種各樣。
2. real/fake discriminator:這個網絡的輸入是圖像,這個圖像是目標域上的樣本,樣本可能是來於給的自然圖像,也可能是decoder的生成的圖片。這個判別模型的目標是學習到儘可能將兩類樣本分開的分類器。通過它與生成模型的對抗訓練可以讓生成模型儘可能生成具有natural性質的樣本。它的代價函數和之前的generative adversarial nets中的是相同的,表示如下(一個交叉熵的形式):
real/fake
3. domain discriminator:這個網絡的輸入是一個樣本對,上面的real/fake discriminator只能保證生成模型生成的圖片具有natural的性質,並沒有添加關於樣本類別的pair-wise約束,這樣生成的圖片可能不具有類別的信息。爲此作者添加這個網絡來保證類別之間的信息。這個需要源域以及目標域上的對應樣本構造樣本對來做監督信息,所以作者重新構造了數據集。這個輸入的樣本對由兩個樣本構成,有一個是來自於源域上的圖像,還有一個是在生成的目標域圖像集或者對應的目標域圖像隨機抽取,最後的代價構造如下:
domain classifier
只有當樣本對中一個樣本是源域上的樣本,另外一個是目標域上對應的ground truth(這個在數據集給出的樣本對給定)時,這個損失最小。所以這個判別器實際上添加了pairwise的監督信息。保證生成的目標域上的圖像與源域上的圖像是有相關性的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章