AlignGAN: Learning to Align Cross-Domain Images with Conditional Generative Adversarial Networks

下載鏈接:https://arxiv.org/pdf/1707.01400.pdf

一 、什麼是對抗?

對抗樣本和對抗網絡

        所謂對抗,樣本是指將實際樣本略加擾動而構造出的合成樣本,對該樣本,分類器非常容易將其類別判錯,這意味着光滑性假設(相似的樣本應該以很高的概率被判爲同一類別)某種程度上被推翻了。

        有一篇論文應該是最早提出對抗樣本概念的。該論文指出,包括卷積神經網絡在內的深度學習模型在對抗樣本面前都十分脆弱,從而將矛頭直指深度學習,似乎要爲深度學習熱潮降一降溫。

這篇論文是:Intriguing properties of neural networks, by Christian Szegedy at Google, et al,2014

這篇博客:http://www.lancezhange.com/2015/11/19/adversarial-samples/ 深入的介紹了對抗樣本和對抗網絡。

這篇博客:https://blog.csdn.net/qq_21210467/article/details/81836976 介紹了各類GAN。

二、AlignGAN解決了什麼問題?

        近來,已經提出了幾種基於生成對抗網絡(GAN)的方法,用於對齊跨域圖像或學習跨域圖像的聯合分佈。 其中一種方法是使用條件GAN進行比對。 然而,採用條件GAN的先前嘗試不如其他方法那樣好。 在這項工作中,我們提出了一種方法來提高基於條件GAN的方法的能力。 我們評估提出的方法在許多任務和實驗結果表明,它能夠對齊跨域圖像成功的情況下配對樣本。 此外,我們還提出了另外一個模型,對多個信息進行條件化,如域信息和標籤信息。 通過調整域信息和標籤信息,我們能夠從源域向目標域傳播標籤。 爲了學習這個模型,提出了兩步交替訓練算法。

三、相關工作

事實證明,生成對抗網絡(GAN)[5]在各種計算機視覺任務中均取得了巨大的成功[6、8、14]。 本文解決了對齊跨域圖像或學習跨域圖像聯合分佈的問題[9]。 針對該問題的早期方法[6,17]需要來自不同域的成對圖像,這限制了這些方法的有效性。 最近,有人提出了CoGAN [9],它解除了配對圖像的限制。 特別是,CoGAN耦合了兩個GAN,其中兩個生成器共享前幾層的權重,引導兩個生成器生成對齊的圖像。

在本文中,我們介紹了一個基於條件GAN的名爲AlignGAN的用於對齊跨域圖像的模型。與CoGAN相似,我們提出的AlignGAN也能夠在沒有配對圖像的情況下對齊跨域圖像。使用條件GAN進行對齊的想法是通過條件域向量學習特定於域的語義,並通過其他潛在向量來學習共享語義。但是,正如文獻[9]所指出的,直接採用條件GAN將無法爲某些任務對齊跨域圖像。我們發現,確定哪些域將受到域向量的限制對於性能至關重要。我們提出的AlignGAN受以下兩個想法的啓發。首先,對於生成器,不同域的最高級別語義應該相似。因此,我們不應該在生成器的噪聲輸入層上調節域矢量。其次,對於鑑別器,我們應該增強域信息信號,以使鑑別器知道圖像來自哪個域。圖像輸入層爲鑑別器生成最強的信號。因此,我們應該在鑑別器的圖像輸入層上設定域向量。我們將AlignGAN用於許多任務,包括數字和負數字,金髮和黑髮以及椅子和汽車。此外,AlignGAN不限於兩個域,並且可以通過僅向域向量添加更多維度來將其擴展到三個或更多域,如圖4(a)所示。

基於AlignGAN,我們還提出了另一個模型,該模型以多種信息爲條件,例如域信息和標籤信息。 假設我們只有源域的標籤信息。 通過從源域學習標籤信息並使用域信息對齊圖像,該模型能夠將標籤信息從源域傳播到目標域。 但是,直接融合多個條件信息的訓練很難收斂。 我們建議在不同的層上調節域向量和標記向量,並通過交替優化來訓練模型。

在本文中,我們做出了以下貢獻:

(1)我們提出AlignGAN,它基於條件GAN來對齊跨域圖像。 我們在許多任務上評估AlignGAN,實驗結果證明了該方法可用於對齊跨域圖像。 

(2)我們還提出了另一種模型,該模型以多種信息爲條件,例如域信息和標籤信息此模型能夠將標籤信息從源域傳播到目標域。 此外,提出了一種兩步交替優化算法來訓練該模型。

Goodfellow等。 [5]提出了一種生成對抗網絡(GAN),它在生成模型中取得了巨大的成功。 此後,提出了許多工作來改善圖像質量[11、14、19]或穩定學習過程[1、12、16]。 此外,GAN已應用於各種計算機視覺任務,例如圖像超分辨率[8],文本到圖像翻譯[15]和圖像到圖像翻譯[6]。

與本文最相關的工作是CoGAN [9],它也嘗試對齊跨域圖像。 在文獻[9]中,作者還嘗試使用條件GAN來完成此任務。 但是,他們的嘗試在許多任務中都失敗了,例如對齊數字和負數字。 與我們的工作有關的另一項任務是圖像到圖像的翻譯[7,21]。 [20]和[7]都採用了兩個GAN,它們構成了循環映射,從而形成了重建損失。 董等。 [3]提出使用條件GAN進行圖像到圖像的翻譯。 他們首先訓練了條件GAN以學習共享特徵,然後訓練了編碼器以將圖像映射到潛在矢量。

四、 模型

在本節中,我們首先在第1節中簡要回顧GAN和條件GAN。 然後,在第2節中介紹擬議的AlignGAN。 最後,第3節介紹了以多種信息爲條件的模型。

4.1 GAN and Conditional GAN

GAN的框架由兩個參與者組成,即鑑別器D和生成器G。給定數據分佈p data,G嘗試學習分佈p g。 G從均勻分佈p z(z)的噪聲輸入z採樣開始,然後將z映射到數據空間G(z;θg)。 另一方面,D的目的是區分樣本是來自p數據還是來自p g。 GAN的目標可以表述爲:

條件GAN引入了額外的信息y,其中鑑別器和生成器均以y爲條件。 可以將條件GAN的目標表述如下:

4.2 AlignGAN

我們提出的AlignGAN基於條件GAN。 直覺是通過條件域向量學習特定於域的語義,並通過其他共享潛在向量來學習共享語義 先前使用條件GAN對齊跨域圖像的嘗試[9]已顯示其在許多任務中的失敗。 經過廣泛的探索,我們總結出以下兩個成功學習的規則。

首先,對於生成器,噪聲輸入層不應受域矢量限制。 因爲模型應該爲不同的領域學習相同的最高層語義。 對於生成器的其他層,它們應以域向量爲條件。

其次,對於鑑別器,圖像輸入層應以域矢量爲條件。 因爲輸入層會生成最強的信號,以使鑑別器知道圖像來自哪個域。 對於鑑別器的其他層,我們發現是否要對其進行調節對性能並不重要。

基於以上兩個規則,我們在圖1中介紹了AlignGAN的網絡架構。

圖1. AlignGAN的網絡架構。 (a):判別器。 (b):生成器。 “ Conv”和“ Deconv”分別表示卷積層和反捲積層。 “ FC”表示完全連接的層。

4.3 Conditioning on Multiple Information

我們提出的另一種模型是以多種信息爲條件,例如域信息和標籤信息域信息有助於對齊來自不同域的圖像,而標籤信息則可以控制所生成圖像的類別。結合兩種信息的一種應用是,當我們只有源域的標籤信息時,我們可以將標籤信息從源域傳播到目標域。這個想法是從源域中學習標籤信息的語義,並從域信息中對齊圖像。結果,該模型能夠控制目標域的生成圖像的類別。一種簡單的方法是首先連接域和標記向量,然後由生成器和鑑別器進行條件處理。但是,我們發現此簡單方法無法收斂。我們建議分別調節域向量和標記向量,這意味着域向量和標記向量受不同層的限制。如第4.2節所述,不應爲生成器的噪聲輸入層設置域矢量。相反,對於標記向量,最高級別的語義隨不同類別而變化。因此,標記矢量應由生成器的噪聲輸入層來調節。如圖2所示,我們將標記向量置於不受域向量限制的層上。

 

圖2.該模型的網絡架構基於多個信息。 (a):判別器。 (b):生成器。 

兩步交替訓練。 我們採用兩步訓練算法,通過交替優化來學習特定領域的語義和共享標籤的語義。 在第一步中,我們利用帶有標籤向量的源域圖像來學習標籤語義,並將域向量設置爲零向量。 在第二步中,我們利用源和目標域圖像以及域向量來學習特定於域的語義,並將標記向量設置爲零向量。 訓練過程在算法1中正式提出。請注意,超參數τ用於調整領域語義和標籤語義之間的訓練迭代分配。 在我們的實驗中,我們設置τ= 4。

5. 實驗

5.1 Implementation Details

除了對齊數字和負數字的任務外,我們採用LSGAN [11]來訓練模型,因爲LSGAN能夠生成更高質量的圖像並穩定學習過程。 對於對齊數字和負數的任務,我們採用常規GAN,因爲我們發現常規GAN可以很好地完成此任務,而LSGAN有時無法對齊數字和負數的圖像。 對於LSGAN,我們選擇了a = -1,b = 1和c = 0的參數,這些參數已被證明可以最小化Pearsonχ2散度。 然後將公式1替換爲以下公式:

我們使用Adam優化器,LSGAN的學習率爲0.0005,常規GAN的學習率爲0.0002。 我們實施的所有代碼都將很快公開。

模型選擇對於LSGAN,我們發現在訓練過程中生成圖像的質量會在好壞之間轉移。 我們通過在某些迭代中檢查生成的圖像的質量來手動選擇模型。

5.2 AlignGAN

在本節中,我們將在數位數據集上評估AlignGAN,包括數字,面部,邊緣,椅子和汽車。

5.2.1 Digits

對於此任務,我們使用USPS和MNIST數據集來評估AlignGAN的性能。 根據文獻[9],我們首先針對以下兩個任務評估AlignGAN。 第一個是對齊數字和邊緣數字的圖像。 第二個是對齊數字和負數的圖像。 另外,我們進一步應用AlignGAN來對齊USPS和MNIST數字的圖像。 如圖3所示,AlignGAN爲所有三個任務成功地學習了對齊圖像。

5.2.2 Faces

我們還將在CelebFaces Attributes數據集[10]用於該實驗的面部圖像上評估AlignGAN。 我們研究了以下四個任務:1)不同顏色的頭髮之間的對齊; 2)戴眼鏡與不戴眼鏡之間的對準; 3)男女對齊; 4)有side角的雄性和沒有without角的雄性之間的對齊。 結果顯示在圖4中,其中生成的圖像的分辨率爲112×112。

 

 

5.2.3 Edges and Photos

另一個評估是在手袋[20]或鞋子[18]的邊緣圖像和逼真的照片之間對齊。 圖5顯示了生成的分辨率爲64×64的結果,我們可以觀察到AlignGAN學會了成功地在邊緣和真實照片之間對齊。

5.2.4 Chairs and Cars

 根據文獻[7],我們還研究了對齊椅子[2]和汽車[4]的圖像的任務,以研究AlignGAN是否能夠了解兩個不同域之間的旋轉關係。 如圖6所示,生成的椅子和汽車的旋轉角度高度相關。

 

5.3 Conditioning on Multiple Information

 我們將針對多種信息提出的模型條件應用於兩個任務。 MNIST數據集用於第一個任務,其中源域和目標域分別是數字和負數字。 第二項任務是在USPS數字和MNIST數字之間。 訓練期間僅使用源域的標籤信息。 通過控制標記向量,我們可以生成0到9之間的數字,其結果如圖7所示。我們有以下兩個觀察結果。 首先,圖7中的配對圖像高度相關。 其次,我們能夠通過調整標籤向量來控制生成的目標域數字的類別。

6. Conclusions

在本文中,我們提出了兩種模型。 第一個稱爲AlignGAN,用於基於條件GAN對齊跨域圖像。 AlignGAN已在許多任務上進行了評估,實驗結果證明了AlignGAN在對齊跨域圖像方面的有效性。 第二個是AlignGAN的擴展,它不僅以域信息爲條件,而且以標籤信息爲條件。 以這兩種信息爲條件,我們能夠完成從源域到目標域的標籤傳播。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章