Wasserstein GAN

Wasserstein GAN

1. 簡介

本文所關注的問題是無監督學習問題。最主要的是,學習概率分佈意味着什麼?經典的答案是學習概率密度。這通常是通過定義一個參數密度族(Pθ)θRd(P_\theta)_{\theta \in \mathbb R^d},並在我們的數據上找到一個最大的可能性:如果我們有真實的數據示例{xi}i1m\{x^i\}^m_{i-1},我們就會解決這個問題:
maxθRd1mi=1mlogPθ(xi) \max_{\theta\in\mathbb R^d}\frac{1}{m}\sum^m_{i=1}logP_\theta(x^i)
如果真實數據分佈 Pr\mathbb P_r 提供了密度,且 Pθ\mathbb P_\theta 是參數化密度 PθP_\theta 的分佈,則漸近地,這等於最小化KL散度 KL(PrPθ)KL(\mathbb P_r||\mathbb P_\theta)

爲了使這個有意義,我們需要模型密度 PθP_ \theta 存在。在我們處理相當常見的由低維流形支持的分佈的情況下,情況就不是這樣了。這樣,模型流形和真實分佈的支撐就不可能有一個不可忽略的交集,這意味着 KLKL 距離是無定義的(或者說是無限的)。

典型的補救措施是在模型分佈中添加噪聲項。這就是爲什麼在經典機器學習文獻中描述的幾乎所有生成模型都包含噪聲成分。在最簡單的情況下,我們假設一個相對具有較高的帶寬的高斯噪聲,以涵蓋所有的例子。衆所周知,例如,在圖像生成模型的情況下,這種噪聲降低了樣本的質量,使它們變得模糊。例如,我們在文獻中可以看到,當最大似然時,模型中添加的噪聲的最佳標準偏差約爲生成圖像中每個像素的 0.10.1 倍,而且前提是像素已經歸一化到[0,1][0,1] 範圍內了。這是一個非常高的噪音量,以至於當論文報告他們的模型的樣本時,他們不會在他們報告的最大似然數中加入噪聲項。換句話說,附加的噪聲項對於這個問題顯然是不正確的,但是爲了使最大似然法工作是必需的。

相比於估計一個可能不存在的密度 Pr\mathbb P_r,我們可以定義一個服從固定分佈 p(z)p(z) 的隨機變量 ZZ,並且通過一個參數化方法gθ:ZXg_\theta:\mathcal Z \to \mathcal X (通常是一種神經網絡)來指導生成樣本服從一個特定的分佈 Pθ\mathbb P_\theta,通過改變θθ,我們可以改變這種分佈並使其接近真實數據分佈 Pr\mathbb P_r。 這在兩個方面很有用。 首先,與密度不同,這種方法可以表示限制在低維流形的分佈。其次,更容易生成樣本的能力通常比密度已知的數值更加有用(例如,在超分辨率圖像或語義分割中,考慮給定輸入圖像的輸出圖像的條件分佈)。通常,在給定任意高維密度的情況下生成樣本的計算是非常困難的。

變分自動編碼器(VAE)和生成性對抗網絡(GAN)是這種方法的衆所周知的例子。 由於VAE關注的是示例的近似可能性,因此它們共享標準模型的侷限性,需要額外操作噪聲項。GAN在目標函數的定義中提供了更多的靈活性,包括Jensen-Shannon和f-divergence以及一些奇異的組合,但是另一方面, GAN訓練以脆弱和不穩定而着稱。

在本文中,我們將注意力集中在測量模型分佈和實際分佈關係的各種方法上,或等效地,用於定義距離或散度 ρ(Pθ,Pr)\rho(\mathbb P_\theta,\mathbb P_r) 的各種方法。 這些距離之間最基本的差異是它們對概率分佈序列收斂的影響。當且僅當存在分佈 P\mathbb P_\infty 使得 ρ(Pt,P)\rho(\mathbb P_t,\mathbb P_\infty) 傾向於零,分佈序列 (Pt)tN(\mathbb P_t)_{t\in \mathbb N} 纔會收斂,這取決於距離ρ\rho 的確定程度。 非正式地,當一個分佈序列較容易收斂時,則距離是ρ\rho 一個較弱的拓撲結構。第二部分闡明瞭在這方面的概率距離有多麼流行。

爲了優化參數 θθ,我們當然希望以使得映射 θPθ\theta \mapsto \mathbb P_\theta 連續的方式定義我們的模式分佈Pθ\mathbb P_\theta。 連續性意味着當一系列參數θtθ_t收斂到 θθ 時,分佈 Pθt\mathbb P_{\theta_t} 收斂到 Pt\mathbb P_t。 但是,必須記住,分佈收斂的概念取決於我們計算分佈之間距離的方式。 這個距離越弱,就越容易定義從 θθ 空間到 Pθ\mathbb P_\theta 空間的連續映射,因爲它更易於分佈的收斂。 我們關心映射 θPθ\theta \mapsto \mathbb P_\theta 是連續的主要原因是:如果是 ρ\rho 我們兩個分佈之間距離的概念,我們希望有一個連續的損失函數 θρ(Pθ,Pr)\theta \mapsto \rho(\mathbb P_\theta,\mathbb P_r),這相當於當使用距離分佈 ρ\rho 時,映射θPθ\theta \mapsto \mathbb P_\theta是連續的。

本文的貢獻是:

  • 在第2節中,我們提供了一個全面的理論分析,分析了EarthMover(EM)距離與學習分佈環境中使用的流行概率距離和差異的比較。
  • 在第3節中,我們定義了一種稱爲Wasserstein-GAN的GAN形式,它最小化了EM距離的合理有效近似,並且從理論上表明相應的優化問題是合理的。
  • 在第4節中,我們憑經驗證明WGAN可以解決GAN的主要訓練問題。特別是,訓練WGAN不需要在判別器和生成器的訓練中保持謹慎的平衡,也不需要仔細設計網絡架構。 GAN中典型的模式化現象也大大減少.WGAN最引人注目的實際好處之一是能夠通過訓練判別器來優化連續估計EM距離。繪製這些學習曲線不僅對調試和超參數搜索有用,而且與觀察到的樣本質量非常相關。

2. 不同的距離

現在介紹我們的符號。 令X\mathcal X爲一個緊湊的矩陣集(例如圖像的空間[0,1]d[0,1] d),讓ΣΣ表示X\mathcal X的所有Borel子集的集合。 使Prob(X)Prob(X)表示在X\mathcal X上定義的概率測量的空間。 我們現在可以定義兩個分佈之 Pr,PgProb(X)\mathbb P_r,\mathbb P_g \in Prob(\mathcal X) 間的基本距離和差異。

(Borel集:RnR^n 中一切開集構成的開集族,生成的σσ代數稱爲RnR^n的borel σσ代數,它其中的元素稱爲 borel集。borel集由開集的有限次的並,交,差構成。borel對於測度理論非常重要,因爲每個定義在開集上或者閉集的測度,都需要在哪個空間的所有的borel集上定義。)

  • 總變差(TV)距離:

δ(Pr,Pg)=supAPr(A)Pg(A) \delta(\mathbb P_r,\mathbb P_g)=\sup_{A\in\sum} |\mathbb P_r(A)-\mathbb P_g(A)|

  • KL散度:

KL(PrPg)=log(Pr(x)Pg(x))Pr(x)dμ(x) KL(\mathbb P_r||\mathbb P_g)=\int log(\frac{P_r(x)}{P_g(x)})P_r(x)d\mu(x)

其中假設Pr\mathbb P_rPg\mathbb P_g都是絕對連續的,因此相對於相同的測量μ\mu ,在X\mathcal X上定義密度,並且當存在Pgx=0P_g(x)= 0Prx>0P_r(x)> 0的點時,衆所周知KL散度就會變得的不對稱並且可能是無窮的。

  • JS散度:

JS(Pr,Pg)=KL(Pr,Pr+Pg2)+KL(Pg,Pr+Pg2) JS(P_r,P_g)=KL(P_r,\frac{P_r+P_g}{2})+KL(P_g,\frac{P_r+P_g}{2})

  • EM距離或Wasserstein距離:

(1)W(Pr,Pg)=infy(Pr,Pg)E(x,y)γ[xy] W(P_r,P_g)=\inf_{y\in\prod(P_r,P_g)}\mathbb E_{(x,y) \sim \gamma}[\|x-y\|] \tag{1}

其中(Pr,Pg)\prod(P_r,P_g)表示所有聯合分佈γ(x,y)\gamma(x,y)的集合,其邊緣分別爲Pr,PgP_r,P_g。直觀的,γ(x,y)\gamma (x,y)表示從x 到 y 必須輸入多少能量,以講分佈PrP_r轉換爲分佈PgP_g。然後,EM距離是最佳運輸計劃的成本。

以下示例說明了概率分佈的簡單序列如何在EM距離下收斂,但在上面定義的其他距離和散度下不收斂。

例一:設ZU[0,1]Z\sim U[0,1]在單位區間內獨立分佈,使P0\mathbb P_0作爲(0,Z)R2(0,Z)\in \mathbb R^2的分佈(0在x軸上,Z在y軸上),P0\mathbb P_0 在穿過原點的垂線上均勻分佈,現在令gθ(z)=(θ,z)g_\theta(z)=(\theta,z) (θ\theta爲一個單獨的實參)。在這個例子中很容易看到:

  • W(P0,Pθ)=θW(\mathbb P_0,\mathbb P_\theta)=|\theta|

  • JS(P0,Pθ)={xif θ0,0if θ=0,JS(\mathbb P_0,\mathbb P_\theta)=\begin{cases} -x & \text{if}\ \theta\neq0,\\ 0 & \text{if}\ \theta=0, \end{cases}

  • KL(PθP0)=KL(P0Pθ)={+if θ0,0if θ=0,KL(\mathbb P_\theta\|\mathbb P_0)=KL(\mathbb P_0\|\mathbb P_\theta)=\begin{cases} +\infty & \text{if}\ \theta\neq0,\\ 0 & \text{if}\ \theta=0, \end{cases}

  • and δ(P0,Pθ)={1if θ0,0if θ=0.and\ \delta(\mathbb P_0,\mathbb P_\theta)=\begin{cases} 1 & \text{if}\ \theta\neq0,\\0 & \text{if}\ \theta=0. \end{cases}

θt0\theta_t\to0 時,序列(Pθt)tN(\mathbb P_{\theta_t})_{t \in \mathbb N} 在EM距離下收斂於P0\mathbb P_0 ,但是在JS,KL,反向KL或TV距離下都沒有收斂。圖1說明了EM和JS距離的情況:

在這裏插入圖片描述

Figure 1: These plots show ρ(Pθ;P0)\rho(\mathbb P_\theta;\mathbb P_0) as a function of θ\theta when ρ\rho is the EM distance (left plot) or the JS divergence (right plot). The EM plot is continuous and provides a usable gradient everywhere. The JS plot is not continuous and does not provide a usable gradient.

例一給出了一個案例,我們可以通過在EM距離上的梯度下降來學習低維流形的概率分佈。這不能用其他距離和散度來完成,因爲產生的損失函數甚至會不連續。雖然這個簡單示例的特徵分佈的支撐集不相交(就是P0,Pθ\mathbb P_0,\mathbb P_\theta 不想交),但是當支撐集P0,Pθ\mathbb P_0,\mathbb P_\theta具有測度爲零的非空交集時,結論同樣成立。 當兩個低維流形在一般位置相交時,恰好就是這種情況.

由於Wasserstein距離遠遠弱於JS距離,我們現在可以溫和的假設一下:W(Pr,Pθ)W(\mathbb P_r,\mathbb P_\theta)是否是關於θθ的連續損失函數。這個假設是正確的,正如我們現在陳述和證明的那樣。

定理1:Pr\mathbb P_rX\mathcal X的固定分佈,設Z是另一個空間Z\mathcal Z上的隨機變量(例如高斯),設Z×RdX\mathcal Z \times \mathbb R^d \to \mathcal X 是一個函數,用θ\theta表示gθ(z)g_\theta(z)的第一個座標且θ\theta爲第二個,令Pθ\mathbb P_\theta表示gθ(Z)g_\theta(Z)的分佈。則:

  1. 如果ggθ\theta上是連續的,那麼W(Pr,Pθ)W(\mathbb P_r,\mathbb P_\theta)也是。
  2. 如果gg是局部Lipschitz並且滿足規律性假設1,那麼W(Pr,Pθ)W(\mathbb P_r,\mathbb P_\theta)處處連續切可微。
  3. 對於JS(Pr,Pθ)JS(\mathbb P_r,\mathbb P_\theta)和所有KL,陳述1-2都是錯誤的。

以下推論告訴我們,通過最小化EM距離來使神經網絡學習至少在理論上是有意義的。

**推論1.**假設gθg_\theta是由θ\theta參數化的任一前饋神經網絡,並且p(z)p(z)優先於zz,使得Ezp(z)[z]<\mathbb E_{z\sim p(z)}[\|z\|]<\infty (例如高斯,均勻等).

然後假設1被滿足,因此W(Pr,Pθ)W(\mathbb P_r,\mathbb P_\theta)在任何地方都是連續的並且幾乎在任何地方都是可微的。

所有這些都表明,對於我們的問題而言,EM至少相比於JS是一個更明智的損失函數。 下面的定理描述了由這些距離和偏差引起的拓撲的相對強度,其中KL最強,其次是JS和TV,而EM最弱。

定理2:P\mathbb P是密集空間X\mathcal X的一個分佈,並且(Pn)nN(\mathbb P_n)_{n\in \mathbb N}X\mathcal X上的序列分佈。然後,將所有極限都視爲nn\to \infty

  1. 以下陳述是等價的
    • δ(Pn,P)0\delta(\mathbb P_n,\mathbb P)\to 0總變差距離
    • JS(Pn,P)JS(\mathbb P_n,\mathbb P) JS散度
  2. 以下陳述是等價的
    • W(Pn,P)0W(\mathbb P_n,\mathbb P)\to 0
    • Pn D P\mathbb P_n\ \stackrel{\mathcal D}{\longrightarrow}\ \mathbb P 這裏D\stackrel{\mathcal D}{\longrightarrow}表示隨機變量分佈的收斂
  3. KL(PnP)0 or KL(PPn)KL(\mathbb P_n\|\mathbb P)\to 0\ or\ KL(\mathbb P\|\mathbb P_n)暗示等式(1)中的陳述。
  4. 等式(1)中的陳述暗示等式(2)中的陳述

這突出了這樣一個事實:當學習由低維流形支持的分佈時,KL,JS和TV距離不是合理的代價函數。不過,EM距離在該體系中是合理的。 這顯然引導我們進入下一部分,我們將介紹優化EM distance的實際近似。

3.Wasserstein GAN

同樣,定理2指出W(Pr,Pθ)W(P_r,P_\theta)在優化JS(Pr,Pθ)JS(P_r,P_\theta)時可能具有更好的性質。 然而,等式(1)中的下限是非常難以處理的。另一方面,Kantorovich-Rubinstein二元性告訴我們:
(2)W(Pr,Pθ)=supfL1ExPθ[f(x)]ExPr[f(x)] W(\mathbb P_r,\mathbb P_\theta)=\sup_{\|f\|_L\le1}\mathbb E_{x\sim\mathbb P_\theta}[f(x)]-\mathbb E_{x\sim\mathbb P_r}[f(x)] \tag{2}
上確界在所有1-Lipschitz函數f:XRf:\mathcal X \to \mathbb R之上。 注意,如果我們替換fL1 for fLK\|f\|_L\le1\ for \ \|f\|_L\le K(考慮某些常數K的K-Lipschitz連續),那麼我們最終得到KW(Pr,Pg)K\cdot W(\mathbb P_r,\mathbb P_g)。 因此,如果我們有一個參數族化的函數{fw}wW\{f_w\}_{w\in W},對於某些K來說都是K-Lipschitz,那麼我們可以考慮解決如下問題:
(3)maxwWExPr[fw(x)]Ezp(z)[fw(gθ(z))] \max_{w\in W}\mathbb E_{x\sim \mathbb P_r}[f_w(x)]-\mathbb E_{z\sim p(z)}[f_w(g_\theta(z))] \tag{3}
並且如果(2)中的上確界達到某個wWw∈W(在證明估計量的一致性時所假設的非常強的假設),則該過程將產生一個直到常數相乘的計算W(Pr,Pθ)W(\mathbb P_r,\mathbb P_\theta)。 此外,我們可以考慮通過估計Ezp(z)[θfw(gθ(z))]\mathbb E_{z\sim p(z)}[\nabla_\theta f_w(g_\theta(z))]反推等式(2)來區分W(Pr,Pθ)W(\mathbb P_r,\mathbb P_\theta)(再次,直到常數)。 雖然這都是直覺(假設),但我們現在證明這個過程是在最優性假設下的.

定理3.Pr\mathbb P_r是任意分佈。 設Pθ\mathbb P_\thetagθ(Z)g_\theta(Z)的分佈,Z爲隨機變量,密度爲p, 爲滿足假設1的函數。然後,對問題有一個解f:XRf:\mathcal X\to \mathbb R,問題:
maxfL1ExPr[f(x)]ExPθ[f(x)] \max_{\|f\|_L\le1}\mathbb E_{x\sim\mathbb P_r}[f(x)]-\mathbb E_{x\sim \mathbb P_\theta}[f(x)]
並且當兩個部分都明確定義時我們得到:
θW(Pr,Pθ)=Ezp(z)[θf(gθ(z))] \nabla_\theta W(\mathbb P_r,\mathbb P_\theta)=-\mathbb E_{z\sim p(z)}[\nabla_\theta f(g_\theta(z))]
現在出現的問題是找到解決等式(2)中最大化問題的函數 ff。 爲了粗略地估計這一點,我們可以做的事情是訓練一個帶有權重ww的參數化神經網絡,在一個密集的空間WW中,然後通過 Ezp(z)[θfw(gθ(z))]\mathbb E_{z\sim p(z)}[\nabla_\theta f_w(g_\theta(z))] 進行反向傳播,就像我們對典型的Gan一樣。 注意,WW是密集的這一事實意味着所有函數fwf_w對於某些KK而言將會是K-Lipschitz連續的,其取決於WW(全部的ww)而不是單獨的ww,因此近似於等式(2)直到不相關的縮放因子和’critic’的函數fwf_w。 爲了讓參數ww位於一個密集的空間中,我們可以做的一件事就是在每次梯度更新後將權重固定到一個範圍(比如W=[0.01,0.01]lW = [-0.01,0.01]^l)。 Wasserstein生成性對抗網絡(WGAN)過程在算法1中描述。

權重限制(Weight clipping)是強制執行Lipschitz約束的一種明顯糟糕的方法。 如果限制參數很大,那麼任何權重都可能需要很長時間才能達到他們的極限,從而使critic更難以進行優化。 如果限制很小,當層數多或者不使用批量歸一化時(例如在RNN中),這就很容易導致梯度消失。 我們嘗試了簡單的變體(例如將權重投射到球體上),但由於其簡單和良好的性能,我們還是堅持使用權重限制。但是,我們還在對神經網絡設置中強制執行Lipschitz約束這一操作進行進一步調查 ,我們積極鼓勵感興趣的研究人員改進這種方法。
在這裏插入圖片描述
事實上EM距離是連續且可微分的a.e.(幾乎處處收斂)。意味着我們可以訓練critic直到最優。這個論點很簡單,我們越訓練critic,我們得到的Wasserstein的梯度越可靠,這實際上是因爲Wasserstein幾乎無處不在的這個事實。對於JS來說,隨着critic越來越好越來越可靠,但是真實的梯度會變爲0,因爲JS局部飽和,我們會得到消失的梯度,如本文圖1和定理2.4(前篇的)所示。在圖2中,我們展示了這一概念的證明,其中我們訓練GAN的discriminator和WGAN的critic直到最優。discriminator學得非常快,可以區分假樣本和真實樣本,並且正如預期的那樣,沒有提供可靠的梯度信息。然而,critic不能飽和,並且收斂到線性函數,在任何地方都給出了非常乾淨的漸變。事實上我們約束權重,限制了函數在空間的不同部分中的最多線性的可能增長,迫使最優critic具有這種行爲。

也許更重要的是,我們可以訓練critic直到最優,這不會使我們模式崩塌。 因爲模式崩塌來自這樣一個事實,即最優generator是固定discriminator的,他是由 discriminator分配最高值的點上的增量之和。,如[4]所示並在[11]中突出顯示。

在下一節中,我們將展示新算法的實際優勢,並對其行爲與傳統GAN的行爲進行深入比較。

在這裏插入圖片描述

Figure 2: Optimal discriminator and critic when learning to differentiate two Gaussians.
As we can see, the discriminator of a minimax GAN saturates and results in vanishing
gradients. Our WGAN critic provides very clean gradients on all parts of the space.

4.實驗結果

我們使用Wasserstein-GAN算法進行圖像生成實驗,並顯示它比標準GAN的公式的優點。

我們說明了有兩個主要好處:

  • 一種與生成器收斂性、質量相關的有意義的損失度量

  • 提高優化過程的穩定性

4.1實驗程序

我們進行圖像生成實驗。要學習的目標分佈是LSUN-Bedrooms數據集,室內臥室的自然圖像集合。我們的基線比較是DCGAN,一個使用logD-logD技巧的用標準GAN程序訓練的卷積結構的GAN。 生成的樣本是尺寸爲64x64像素的3通道圖像。 我們使用算法1中指定的超參數進行所有實驗。

在這裏插入圖片描述
Figure 3: Training curves and samples at different stages of training. We can see a clear correlation between lower error and better sample quality. Upper left: the generator is an MLP with 4 hidden layers and 512 units at each layer. The loss decreases consistently as training progresses and sample quality increases. Upper right: the generator is a standard DCGAN. The loss decreases quickly and sample quality increases as well. In both upper plots the critic is a DCGAN without the sigmoid so losses can be subjected to comparison. Lower half: both the generator and the discriminator are MLPs with substantially high learning rates (so training failed). Loss is constant and samples are constant as well. The training curves were passed through a median filter for visualization purposes.

圖三:上在不同的訓練階段的訓練曲線和樣本。我們可以看到較低的誤差和較好的樣品質量之間的明確相關性。左上角:生成器是一個帶有4個隱藏層的MLP,每層有512個單元。 損失逐漸減少,樣本質量增加。 右上:生成器是標準DCGAN。損失迅速減少,樣品質量也隨之增加。 在兩個上圖中,critic都是沒有sigmoid激活函數DCGAN,因此可以對損失進行比較。下半部分:生成器和discriminator都是具有相當高學習率的MLP(因此訓練失敗)。 損失是恆定的,樣本也是恆定的。 爲了可視化目的,我們將訓練曲線通過了中值濾波器.

4.2有意義的損失度量

因爲WGAN算法試圖在每次生成器更新(算法1中的第10行)之前相對較好地訓練critic(算法1中的第2-8行),所以此時的損失函數是EM距離的一個估計,直到與我們約束f的Lipschitz常數的方式相關的常數因子。

我們的第一個實驗說明了這種估計如何與生成的樣本的質量很好地相關。除了DCGAN卷積架構,我們還進行了實驗,我們用512個隱藏單元的4層ReLU-MLP替換生成器,或者同時替換生成器和critic。

圖3描繪了對於所有三種架構WGAN估計的演變。該圖清楚地表明這些曲線與生成樣本的視覺質量很好地相關。

據我們所知,這是GAN文獻中第一次顯示出這樣的屬性,其中GAN的loss顯示了收斂性。在對抗性網絡中進行研究時,此屬性非常有用,因爲不需要盯着生成樣本來確定模型的好壞。

在這裏插入圖片描述

Figure 4: JS estimates for an MLP generator (upper left) and a DCGAN generator (upper right) trained with the standard GAN procedure. Both had a DCGAN discriminator. Both curves have increasing error. Samples get better for the DCGAN but the JS estimate increases or stays constant, pointing towards no signicant correlation between sample quality and loss. Bottom: MLP with both generator and discriminator. The curve goes up and down regardless of sample quality. All training curves were passed through the same
median lter as in Figure 3.

圖四:左上的是MLP生成器的JS估計,右上的是一個DCGAN生成器。 他們都是使用標準GAN程序訓練的,兩者都有一個DCGAN卷積鑑別器,可以看到他們的error是逐漸上升的。 DCGAN的樣本越變越好,但JS估計隨着迭代的增加而增加或後期基本保持不變,這表明樣本質量和損失之間沒有顯着的相關性。 底部:MLP同時具有生成器器和鑑別器。 無論樣品質量如何,曲線都會上下移動。 上面所有訓練曲線都通過了與圖3中相同的中值濾波器。

但是,我們並未聲稱這是一種定量評估生成模型的新方法。依賴於critic體系結構的恆定比例的因子意味着很難將模型與不同的critic進行比較。 更重要的是,在實踐中,critic沒有無限的能力,這使我們很難知道我們的估計到底與EM距離有多接近。 話雖如此,我們已經成功地使用損失度量來反覆驗證我們的實驗,並且沒有失敗,我們認爲這是對GAN訓練的巨大改進,以前是沒有這樣的操作的。

相比之下,圖4描繪了GAN訓練中以JS距離爲根本的GAN估計的變化(也就是JS估計的變化)。 更確切地說,在GAN訓練期間,訓練鑑別器最大化
L(D,gθ)=ExPr[logD(x)]+ExPθ[log(1D(x))] L(D,g_\theta)=\mathbb E_{x\sim \mathbb P_r}[logD(x)]+\mathbb E_{x\sim\mathbb P_\theta}[log(1-D(x))]
他是2JS(Pr,Pθ)2log22JS(\mathbb P_r,\mathbb P_\theta)-2log2 的下界。在圖中,我們還畫出了數量12L(D,gθ)+log2\frac{1}{2}L(D,g_\theta)+log2 ,他是JS距離的下界。

該數量明顯與樣品質量相關。 另請注意,JS估計通常保持不變或上升而不是下降。 實際上他仍然非常接近log20.69log2≈0.69,這是JS距離取到的最高值。 換句話說,JS距離飽和,鑑別器具有零損失,並且生成的樣本在某些情況下是有意義的(DCGAN生成器,右上圖),並且在其他情況下摺疊成單個無意義的圖像[4]。 最後一種現象已在[1]中進行了理論解釋,並在[11]中得到了強調。

使用log-log技巧時,鑑別器loss和生成器loss不同。 附錄E中的圖8報告了GAN訓練的相同圖,但使用了loss器損失而不是鑑別器loss。 這不會改變結論。

最後,作爲否定結果,我們報告說,當一個人對critic使用基於動量的優化器(例如Adam [8](對於β1>0β1> 0)或當使用高學習率時,WGAN訓練變得不穩定。 由於critic的loss是非常穩定的,所以基於動量的方法似乎表現得更差。 我們將動量確定爲潛在原因,因爲隨着loss的爆發和樣本變得更糟,Adam的步和梯度之間的餘弦通常變爲負值。 這個餘弦是負數的唯一的地方就是在這些不穩定的情況下。 因此,我們改用RMSProp [21],即使在非常不穩定的問題上他也能有良好的表現 [13]。

4.3改善穩定性

WGAN的一個好處是它允許我們訓練critic直到最優。當critic接受訓練完成時,它只會給我們提供生成器的loss,就像任何其他訓練的神經網絡一樣。 這告訴我們,我們不再需要正確平衡生成器和鑑別器的訓練量。critic越好,我們用來訓練生成器的梯度越高。

我們還觀察到,當選擇一個不同的生成器的架構時,WGAN比GAN更強大。 我們通過在三種發生器架構上運行實驗來說明這一點:(1)卷積DCGAN生成器,(2)卷積DCGAN生成器,無需批量歸一化和具有相同數量的濾波器,以及(3)有512個隱藏單位的4層ReLU -MLP。 已知最後兩個與GAN表現很差。 我們爲WGAN的critic或GAN的discriminator保留了卷積DCGAN的架構。

圖5,6和7展示出了使用WGAN和GAN算法爲這三種體系結構生成的樣本。我們建議讀者引用附錄F以獲取生成樣本的完整表。樣品沒有被挑選出來.

在沒有試驗的情況下,我們看到了WGAN算法模式崩塌的證據。

在這裏插入圖片描述

圖五:兩個算法都是用一個DCGAN的generator訓練的,左圖是WGAN算法,右圖是標準GAN方程,兩個算法都生產出了高質量的樣本。

在這裏插入圖片描述

圖6:算法生成器的訓練沒有使用批量標準化的算法,每一層的過濾器也沒有使用的常數數量(爲了不讓每次都重複它們,如[18]中所述)。除了去除了批量標準化之外,參數的數量也減少了一些,減少了超過一個數量級。 左:WGAN算法。 右:標準GAN方程。 我們可以看到標準GAN未能正常學習,而WGAN仍然可以生產樣本。

在這裏插入圖片描述
圖7:(標準GAN算法)使用MLP生成器訓練的算法,該生成器有4層,共512個具有ReLU非線性激活函數的單元。參數的數量類似於DCGAN的數量,但它缺乏用於圖像生成的強烈的感應偏差。左:WGAN算法。右:標準GAN算法。 WGAN算法仍然能夠生成質量低於DCGAN的樣本,並且質量高於標準GAN的MLP。請注意GAN MLP中模式崩塌的程度。

5.相關工作

這裏有許多關於所謂的積分概率指標(IPM)的著作。 給定F一組是從X到R的函數,我們可以定義:
(4)dF(Pr,Pθ)=supfF[f(x)]ExPθ[f(x)] d_\mathcal F(\mathbb P_r,\mathbb P_\theta)=\sup_{f\in \mathcal F}[f(x)]-\mathbb E_{x\sim\mathbb P_\theta}[f(x)] \tag{4}
作爲與函數類F相關聯的積分概率度量。很容易證實,如果對於每個fFf∈F我們都有fF-f∈F,那麼dFd_\mathcal F是非負的,滿足三角不等式,並且是對稱的。 因此,dFd_\mathcal F是Prob(X)的僞測量。

​ 雖然IPM似乎可以分享類似的公式,但我們將看到不同類別的方程可以與完全不同的指標相提並論。

  • 通過Kantorovich-Rubinstein二元性[22],我們知道當F\mathcal F是1-Lipschitz函數的集合時W(Pr,Pθ)=dF(Pr,Pθ)W(\mathbb P_r,\mathbb P_\theta)=d_\mathcal F(\mathbb P_r,\mathbb P_\theta) 。 此外,如果F\mathcal F是K-Lipschitz函數的集合,我們得到$K\cdot W(\mathbb P_r,\mathbb P_\theta)=d_\mathcal F(\mathbb P_r,\mathbb P_\theta) $。

  • 當F是所有界定在-1和1之間可測量函數的集合時,(或-1和1之間的所有連續函數),我們檢索dF(Pr,Pθ)=δ(Pr,Pθ)d_\mathcal F(\mathbb P_r,\mathbb P_\theta) =\delta(\mathbb P_r,\mathbb P_\theta) 的總變差距離[15]。 這已然告訴我們,從1-Lipschitz到1-Bounded函數大大改變了空間的拓撲結構,並且$d_\mathcal F(\mathbb P_r,\mathbb P_\theta) $的規律作爲損失函數(如定理1和2所示)。

  • Energy-based GAN(EBGAN)[25]可以被認爲是總變差距離的生成方法。這種連接在附錄D中有說明和證明。連接的核心是鑑別器將起到最大化方程(4)的作用,而它的唯一限制是對於某些常數在0和m之間。 這將使得相同的行爲被限制在介於-1和1之間,直到與優化無關的恆定的縮放因子。 因此,當鑑別器接近最優時,生成器的成本將使總變差距離δ(Pr,Pθ)\delta(\mathbb P_r,\mathbb P_\theta) 近似。

    由於總變差距離顯示出與JS相同的規律性,可以看出EBGAN將遭到與經典GAN相同的問題,即不能將鑑別器訓練到最優性並且因此將其自身限制在非常不完美的梯度。

  • 最大平均差異(MMD)[5]是積分概率度量的特殊情況,當某些Reproducing Kernel Hilbert Space(RKHS)的 F={fH:f1}\mathcal F=\{f\in \mathcal H: \|f\|_\infty\le 1\} 與給定的內核k:X×XRk:\mathcal X\times\mathcal X\to \mathbb R相關時 。正如[5]所述,我們知道MMD是一個合適的度量標準,而且當內核是通用的時候,它不僅僅是僞計量。在對於X\mathcal X 上的歸一化Lebesgue度量m的方程H=L2(X,m)\mathcal H=L^2(\mathcal X,m) 的特定情況下,我們知道F中包含{fCb(X)f1}\{f\in C_b(\mathcal X)\|f\|_\infty\le 1\} ,因此dF(Pr,Pθ)δ(Pr,Pθ)d_\mathcal F(\mathbb P_r,\mathbb P_\theta) \le\delta(\mathbb P_r,\mathbb P_\theta) 作爲損失函數的MMD距離的規律性至少與總變差之一一樣差。然而,這是一個非常極端的情況,因爲我們需要一個非常強大的內核來逼近整個L2L^2 。然而,即使是Gaussian內核也能夠檢測出微小的噪聲模型,如[20]所證明的那樣。這表明,特別是對於低帶寬內核,距離可能接近飽和狀態,類似於總變差或JS。這顯然不一定是每個內核的情況,並且尋找出如何以及哪些不同的MMD更接近Wasserstein或總變差距離是一個有趣的研究課題。

    MMD的一個重要方面是通過內核技巧,不需要爲RKHS的球提供單獨的網絡來最大化方程(4)。但是,這樣做的缺點是評估MMD距離的計算成本會以二次方的增長速度而增加。 用於估計(4)中預期的樣本量。 最後一點使得MMD具有有限的可擴展性,並且有時不適用於許多現實生活中的應用程序。 MMD [5]有線性計算成本的估計值,在很多情況下MMD非常有用,但它們的樣本複雜度也較差。

  • Generative Moment Matching Networks (GMMNs) [10,2]是MMD的一個對應模型。通過對核化公式序列(4)進行反向推導,他們直接優化了 dMMD(Pr,Pθ)d_{MMD}(\mathbb P_r,\mathbb P_\theta) (當前一項中的是F時,則是IPM)。如上所述,這具有不需要單獨的網絡來近似最大化等式(4)的優點。但是,GMMN的適用性有限。對於不成功的部分解釋是二次成本作爲樣本數量和低帶寬內核中消失的梯度的函數。此外,實際使用的某些內核可能不適合在高維樣本空間(例如自然圖像)中捕獲非常複雜的距離。 [19]表明,對於典型的高斯MMD測試來說,可靠性(因爲它的統計測試接近1的能力),我們需要使樣本的數量隨着維數的數量線性增長。由於MMD計算成本與用於估計方程(4)的批次中的樣本數量成二次方式地增長,這使得具有估計的成本與維度的數量成二次方,這使得它非常不適用於高維問題。實際上,對於像64x64圖像那樣標準的東西,我們需要大小至少爲4096的小型號(不考慮[19]的範圍內的常數,這將使這個數字大得多)和每次迭代的總成本40962,結束使用標準批量大小爲64時,比GAN迭代多5個數量級

    話雖如此,這些數字對於MMD來說可能有點不公平,因爲我們將GAN的經驗樣本複雜性與MMD的理論樣本複雜性進行比較,後者往往更糟糕。 然而,在最初的GMMN論文[10]中,他們確實使用了1000的小批量,比標準的32或64大得多(即使這是在二次計算成本中產生的)。 雖然具有線性計算成本的估計值是樣本數量的函數[5],但它們具有更差的樣本複雜性,據我們所知,它們尚未應用於GMMN等生成環境中。

    在另一個偉大的研究領域,[14]的最近的工作探討了在受限玻爾茲曼機器學習離散空間的背景下使用Wasserstein距離。 乍一看動機可能看起來很不一樣,因爲流形設置僅限於連續空間,而在有限的離散空間中,弱和強拓撲(分別是W和JS的拓撲)會重合。然而,最後還有更多的共同點而不是關於我們的動機。我們都希望以一種利用底層空間幾何形狀的方式比較分佈,而Wasserstein允許我們做到這一點。

    最後,[3]的工作顯示了計算不同分佈之間的Wasserstein距離的新算法。 我們相信這個方向非常重要,也許可能會導致評估生成模型的新方法。

6.結論

我們引入了一種算法,我們認爲WGAN是傳統GAN訓練的替代方案。 在這個新模型中,我們展示了我們可以提高學習的穩定性,擺脫模式崩潰等問題,並提供有用的調試和超參數搜索的有意義的學習曲線。 此外,我們表示相應的優化問題是合理的,並提供了廣泛的理論工作,突出了與分佈之間的其他距離的深層聯繫。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章