Multimodal Unsupervised Image-to-Image Translation 論文小結

本文是自己閱讀完Multimodal Unsupervised Image-to-Image Translation後寫的小結。因爲自己理解不夠，所以我選擇保留原文中的一些英文單詞而不是去翻譯。

自己之前雖然做過一些風格轉化的工作，但是一直感覺非常懵懂，裏面的東西很多自己都不明白，畢竟自己沒有太多的理論知識，也不清楚很多模型的具體作用和限制。這篇論文裏面有挺多理論上的分析，以及對很多模型作用的闡述。對我這樣一個小白來說，有挺大的收穫的。

一些實驗的細節論文沒有提及，需要看代碼。

1. 簡介

無監督下的圖像到圖像翻譯在計算機視覺領域是一個重要且富有挑戰性的問題。給一個source domain下的圖片，圖像翻譯的目標是在看不到任何corresponding image pairs的前提下，學會該圖片在target domain下對應圖片條件的分佈。當這個條件分佈內部是multimodal時，現有的模型做出了過於簡單的假設，認爲圖像到圖像翻譯是一個deterministic（唯一，必然，一成不變的）的one-to-one mapping。這導致了現有模型不能針對單一的輸入圖像生成不同的輸出圖像。爲了解決這個問題，論文作者們提出了Multimodal Unsupervised Image-to-Image Translation（MUNIT）框架。作者假設圖像的representation可以被分解成domain無關的內容信息（content code）和有着某個特定domain屬性的風格信息（style code）。爲了把一個圖像翻譯成另一個domain下的圖像，MUNIT把圖像的內容信息和從target domain中的風格空間中隨機取樣出的風格信息結合在一起。論文分析了這個框架並確定了理論上的結果。並通過與目前最先進的幾個模型的實驗結果對比，展示了模型的優點。而且MUNIT允許使用者通過提供style image的方式來控制圖像翻譯的風格。作者提供了代碼和預訓練好的模型：https://github.com/nvlabs/MUNIT

我對前面提到的multimodal的理解是多模態分佈，即在一個空間下，多個分佈共同存在的情況。舉個例子，在貓科動物的照片空間中，有普通家貓的照片，也有有大型貓科動物的照片，這兩種照片是不同的分佈，但同時在一個空間（貓科動物照片）中同時存在，讓貓科動物的照片分佈形成了一個多峯（多模態）的分佈。當然，自身的水平不高，可能理解上還是有很多偏差，而且照片的分佈這種東西很難說清，只有在本論文的假設前提下，我們纔可以討論這些照片（或者圖片）的分佈。

2. 相關工作

3. MUNIT

3.1. 假設

目前還不是很能說明白文章的假設和解決問題間的具體聯繫（論文附錄裏的證明自己還沒看過），就先隨便寫一些。

假設圖像所在的 latent space 可以被分解爲 content space 和 style space
假設不同domain直接共享 content space的內容，但 style space中的內容只被每個特定的domain獨有。即兩個對應的圖片對(x1,x2) 是這樣被生成的：x1=G∗1(c,s1) ，x2=G∗2(c,s2) ，其中c,s1,s2 來自一些特定的分佈，G∗1,G∗2 是underlying（潛在的，根本的） generators。
假設 G∗1 和 G∗2 是deterministic generators，並且它們有相對的encodersE∗1=(G∗1)−1 和E∗2=(G∗2)−1 。論文作者的目標就是通過神經網絡學習到對應的generator and encoder functions。值得注意的是雖然encoders and decoders是deterministic的，但是因爲s2 屬於一個連續分佈的關係，所以p(x2|x1) 也是一個連續的分佈。
假設內容編碼（content code）是一個有着複雜分佈特性的 high-dimensional spatial map，而風格編碼（style code）是一個符合高斯分佈特性的低維向量

3.2. 模型

MUNIT的loss function由用來保證編碼器和解碼器互逆的雙向重構loss（bidirectional reconstruction loss）和使翻譯得到的圖像服從真實圖像分佈的對抗 loss（Adversarial loss即GAN loss）

Bidirectional reconstruction loss

因爲編碼器可以把圖像分解成相應的編碼，對應的編碼又可以生成相應的圖像，所以可以用兩個L1 loss來保證編解碼器的互逆性質，即可以通過image→latent→image 這個過程得到前後兩個image之間的L1 loss，以及通過latent→image→latent 這個過程得到前後兩個latent之間的L1 loss。公式見下圖，不打出來了：

Adversarial loss

老生常談GAN那一套 = =，直接貼公式把

Total loss

4. 理論分析

首先論文闡述了其Eq. (5)的一個特性，即當最小化完成時，翻譯分佈（translated distribution）和數據分佈（data distribution）是相匹配的。此時Eq. (5)變成了一個最大化方程：

接下來討論最小化過程帶來的3個特性：

4.1. Latent Distribution Matching

如果一定要我用淺顯的理解加上中文來翻譯Latent Distribution Matching：隱編碼分佈匹配

現有的利用編碼器和GAN來生成圖像的模型要求利用kld loss和gan loss來使decoder接受到的latent distribution和encoded latent distribution匹配，不然的話，auto-encoder training 不會幫助GAN training。（感覺自己對原文中這段話的理解不是很好，貌似理解錯了？）

即使MUNIT的loss function沒有顯性地強迫latent的分佈，但依然可以隱式地影響這些分佈。

上述性質展示了在優化完成時，encoded style distributions 有了高斯分佈的特性，同時，encoded content distribution和生成時的分佈相匹配，注意生成時的content分佈是來自其他domain的，這就表明了content space 是domain無關的。

4.2. Joint Distribution Matching

聯合分佈p(x1,x1→2) 和p(x2→1,x2) 本質上就是聯合分佈p(x1,x2) ，這是圖像翻譯成功的關鍵。

4.3. Style-augmented Cycle Consistency

Cycle Consistency限制條件對多模態圖像轉換過強了，可以證明如果引入了這個限制，這個模型會從一個概率分佈模型變爲一個輸入與輸出永遠對應的生成模型。

5. 實驗

5.1. 推導細節

因爲自己對這裏面的很多模型還沒有很好的理解，所以先寫出模型的名字，具體說明就個人能力有限，不展開了。

Content encoder所有的卷積層後面都跟着Instance Normalization層。

Style encoder因爲Instance Normalization層會從原圖的feature中移除風格信息，所以Style encoder中沒有使用Instance Normalization層。

Decoder在每個Residual Blocks後面跟着Adaptive Instance Normalization (AdaIN)層，AdaIN層的參數由MLP計算出來。

Discriminator使用了LSGAN objective和multi-scale discriminators。

Domain-invariant perceptual loss域無關感知誤差，在計算感知loss之前，對VGG的輸出做Instance Normalization，意在去除特定領域下的信息，在大分辨率(>=512∗512) 下這個方法可以加速收斂。不明白爲什麼有VGG的感知誤差，在模型中沒有說明啊。