CVPR2018｜Domain Adaptation Segmentation-pix2pixHD詳解

論文：High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

會議：CVPR2018

任務：利用條件 GAN 進行 2048 x 1024 分辨率的圖像合成和處理

pix2pix:

Image-to-Image Translation，使用Domain A的圖片作爲pix2pix 的輸入，生成domain B的圖片，利用判別器對圖片對進行判別，如下圖

D(real edge, fake image) --> fake

D(real edge, real image) --> real

限制：生成256*256的圖片，難以生成高分辨率圖像；

pix2pixHD:

任務：進行2048 x 1024 分辨率的圖像合成和處理

方法：針對高分辨率的圖片，利用GAN綜合local和global的信息構建一個Coarse-to-fine 的架構完成從label生成高分辨率圖片的任務，並且允許生成多風格（外觀紋理不同）的圖片以及允許實例操縱。

網絡：Coarse-to-fine 生成器

生成器拆分成兩個子網絡 G={G1,G2}：全局生成器網絡 G1利用全局信息和局部增強網絡 G2利用局部信息，前者輸入和輸出的分辨率保持一致（如 1024 x 512），後者輸出尺寸（2048 x 1024）是輸入尺寸（1024 x 512）的 4 倍（長寬各兩倍）。

以此類推，如果想要得到更高分辨率的圖像，只需要增加更多的局部增強網絡即可（如 G={G1,G2,G3}）。

多尺度判別器：相同的架構，使用不同尺度的圖片作爲輸入進行判別器訓練

視覺交互操作(interative visual manipulation):

先看一下結果：

從作者發佈的視頻中，可以看到，可以選擇更換街景中車輛的顏色和型號，給街景圖增加一些樹木，或者改變街道類型（例如將水泥路變成十字路）。類似地，利用語義標註圖合成人臉時，給定語義標註的人臉圖像，你可以選擇組合人的五官，調整大小膚色，添加鬍子等。

這是這篇文章最有趣的一個部分，這是怎麼做的呢？

通過使用Instance map，進行視覺交互式操作，對圖片進行交互操作，網絡如下：

將圖片輸入到Feature encoder network E得到圖片的分割圖，使用Instance-wise average pooling對feature maps進行pooling操作，從而得到圖片的Features ,將圖片的Labels和Featuresconcat到一起，輸入Image generation network G生成目標圖片。

CVPR2018｜Domain Adaptation Segmentation-pix2pixHD詳解

SQL優化-20231016

弱監督語義分割算法｜AE-PSL算法對抗性擦除最具有判別性區域

算法圖解（五）｜散列表與字典

圖像分割算法之FCNs in the Wild論文詳解

想不想讓你拍的照片秒變宮崎駿風格漫畫，一起來看看CartoonGAN

如何使用圖片級類別標註對像素級分割任務進行訓練之MIL Loss詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結