CVPR2018|Domain Adaptation Segmentation-pix2pixHD詳解

論文:High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

會議:CVPR2018

任務:利用條件 GAN 進行 2048 x 1024 分辨率的圖像合成和處理

pix2pix:

Image-to-Image Translation, 使用Domain A的圖片作爲pix2pix 的輸入,生成domain B的圖片,利用判別器對圖片對進行判別,如下圖

D(real edge, fake image) --> fake

D(real edge, real image) --> real

限制: 生成256*256的圖片,難以生成高分辨率圖像;

pix2pixHD:

任務: 進行2048 x 1024 分辨率的圖像合成和處理

方法:針對高分辨率的圖片,利用GAN綜合local和global的信息構建一個Coarse-to-fine 的架構完成從label生成高分辨率圖片的任務,並且允許生成多風格(外觀紋理不同)的圖片以及允許實例操縱。

網絡:Coarse-to-fine 生成器

生成器拆分成兩個子網絡 G={G1,G2}:全局生成器網絡 G1利用全局信息 和局部增強網絡 G2利用局部信息,前者輸入和輸出的分辨率保持一致(如 1024 x 512),後者輸出尺寸(2048 x 1024)是輸入尺寸(1024 x 512)的 4 倍(長寬各兩倍)。

以此類推,如果想要得到更高分辨率的圖像,只需要增加更多的局部增強網絡即可(如 G={G1,G2,G3})。

多尺度判別器:相同的架構,使用不同尺度的圖片作爲輸入進行判別器訓練

視覺交互操作(interative visual manipulation):

先看一下結果:

從作者發佈的視頻中,可以看到,可以選擇更換街景中車輛的顏色和型號,給街景圖增加一些樹木,或者改變街道類型(例如將水泥路變成十字路)。類似地,利用語義標註圖合成人臉時,給定語義標註的人臉圖像,你可以選擇組合人的五官,調整大小膚色,添加鬍子等。

這是這篇文章最有趣的一個部分,這是怎麼做的呢?

通過使用Instance map,進行視覺交互式操作,對圖片進行交互操作,網絡如下:

將圖片輸入到Feature encoder network E得到圖片的分割圖,使用Instance-wise average pooling對feature maps進行pooling操作,從而得到圖片的Features ,將圖片的Labels和Featuresconcat到一起,輸入Image generation network G生成目標圖片。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章