starGAN v2閱讀記錄

StarGAN v2

摘要

優秀的圖像-圖像轉換模型需要學習不同視覺域之間的映射,要同時滿足以下屬性:1)生成圖像的多樣性和 2)在多個域上的可擴展性。
因此提出了star-GAN v2和動物數據集AFHQ

一.介紹

:可以分組爲視覺上獨特的類別的不同組圖片
風格:每組圖片中的每張圖片都有獨特的外觀,這稱之爲風格。
比如,可以根據性別將人分爲男性和女性兩個域,而人物的裝扮,鬍子,髮型等特徵可以視爲風格。大概就是範圍更大的可區分特徵叫做域,範圍小的叫做風格。
一個理想的圖像轉換模型應該考慮域內的多樣化的風格。但這種模型的設計和學習很困難,因爲一種域內可以有大量的任意風格。

爲了實現風格多樣性。將從標準高斯分佈中隨機採樣的低維隱向量餵給生成器,然後不同域的解碼器則從上述向量中取得自己所需的風格內容,然後生成圖片,這種一對一的映射會導致實現風格的多樣性需要多種生成器,如K域,則需要K(K-1)個生成器。

爲了實現可擴展性。star gan通過將輸入圖片於特定的域標籤級聯,使用一個生成器實現將輸入圖片轉換到目標域的圖片,但是這只是學到了每個域的確定映射(給標籤的那一刻就確定了,畢竟是隻給了一個one hot的標籤),不能學到數據分佈多種模態的特性(相當於不能同時轉換多種風格)。
因此,如果使用風格特徵代替域標籤,那麼引入的信息會更多。

改進1:將star gan中的域標籤用特定域的風格特徵(不是單一風格,如這個風格特徵保護鬍鬚,髮型,性別等風格)代替,實現風格的多樣性。使用了風格編碼網絡(提取目標圖片的風格)和maping net(隨機高斯噪聲轉換成目標域的一種隨機的風格特徵)來實現。當有多個域的時候,每個模塊都將有多個輸出分支,每個分支表示特定域的風格特徵

二.StarGANv2

給出圖片x和任意一個目標域的圖片y,生成具有x的內容但是包含y的風格的圖片。

1.網絡結構

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-voprFR4N-1592552049296)(star_gan_v2.assets/image-20200619141708306.png)]

生成器
保留輸入圖片x的內容,使用mapping net或者style encoder得到目標域的風格特徵s,將x的特徵和s通過AdaIN變換,而不是直接級聯,然後生成一張具有s風格的圖片。

Mapping net
將一個隱向量z映射到不同域的風格特徵,相當於mappingNet是一個多任務的全連接網絡。訓練的時候是隨機採樣Z中的樣本z和隨機採樣域Y中的一張圖片來使得該網絡有效的學到所有域的風格表示。感覺有點像VAE?變換個參數(這裏是稍微改變z),就可以得到目標域的風格相似的特徵,因此可以實現多樣性風格生成。

Style encoder
使用一個多任務的風格特徵提取網絡。因此,使用不同的參考圖片訓練,該網絡可以提供多樣性的風格特徵。

判別器
多任務分類器,有多個輸出分支。每個分支使用一個二進制分類判斷真實圖片x是否真實以及生成圖片是否則真實。使用多個分類器是爲了避免籠統地判斷生成地是否真實,因爲我們要的是生成地圖片在特定域上地真實,而不是隨便地真實,優化更加具體了。

2.loss設置

對抗loss

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-ON7M2r9x-1592552049302)(star_gan_v2.assets/image-20200619145018186.png)]

對抗階段:從高斯空間中採樣得到一個高斯編碼z,將該z和目標域的一個隨機選取的圖片y的風格關聯起來。將z通過mapping net映射成一個風格向量,然後將該風格向量與x圖片特徵通過AdaIN變換融合,然後生成圖片。通過判別器和生成器的對抗,一方面是是mapping net 輸出更好的Y域風格向量y,另一方面是使得生成器能夠學會利用風格向量s來生成Y域內更加真實的圖片。

風格重建loss

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-QHeqEkkz-1592552049306)(star_gan_v2.assets/image-20200619145149994.png)]

風格重建:直覺就是,我將x的圖片內容和風格y結合生成圖片c,這時候我對c提取到的Y域風格特徵應和之前的y儘量相同。這裏使用了一個L1的loss。
這個loss的目的是爲了使生成器在生成圖片的時候保留風格y的特徵。
本文與其他的風格提取網絡的差別是本文的風格提取是多任務的。

風格多樣性loss

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-9NF1wtHl-1592552049309)(star_gan_v2.assets/image-20200619145219129.png)]

風格差異:這是爲了使得生成器搜素圖像空間,發現更有意義的特徵來生成多樣性的圖片,看公式就可以知道這是爲了最大化生成圖片兩個域之間的風格特徵的L1 loss。
不以分子分母的形式表示(相當於輸入的風格特徵的差距作爲分母,生成圖片的風格特徵差距作爲分子)是因爲分母的輕微變換會導致該分數值很大,訓練不穩定,因此才使用了文中的公式。
由於這種最大化是個很難確定的問題,所以這個loss的超參後面會降至0

重建loss

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-O6WfT5q5-1592552049312)(star_gan_v2.assets/image-20200619145302664.png)]

總的loss

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-sAuGmkRx-1592552049315)(star_gan_v2.assets/image-20200619145330421.png)]

三.實驗結果展示

在這裏插入圖片描述

四.總結

star GAN的話只能根據每次變換一種屬性風格,當沒有屬性標籤時無法變換;而v2的話是變換域的風格,這是主要的區別。我覺得它就只是將前人的成果融合起來而已,主要的貢獻是開源了一個動物數據。

Reference

1.Choi Y, Uh Y, Yoo J, et al. Stargan v2: Diverse image synthesis for multiple domains[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 8188-8197.

2.有代碼分析[CVPR2020] StarGAN v2

3.論文閱讀】StarGAN v2

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章