ICLR 2019 | 有效穩定對抗模型訓練過程,伯克利提出變分判別器瓶頸

選自 openreview

作者:Xue Bin Peng 等

機器之心編譯

參與:Geek AI、路

近期,加州大學伯克利分校的研究者提出一種新型簡單而通用的方法變分判別器瓶頸(VDB),利用信息瓶頸約束判別器內信息流,通過對觀測結果和判別器內部表徵之間的互信息進行約束來穩定對抗性模型的訓練過程。該論文已被 ICLR 2019 接收,獲得了6、10、8的評分。

對抗性學習方法爲具有複雜的內部關聯結構的高維數據分佈的建模提供了一種很有發展前景的方法。這些方法通常使用判別器來監督生成器的訓練,從而產生與原始數據極爲相似、難以區分的樣本。生成對抗網絡(GAN)就是對抗性學習方法的一個實例,它可以用於高保真的圖像生成任務(Goodfellow et al., 2014; Karrasrt et al.,2017)和其他高維數據的生成(Vondrick et al.,2016;Xie et al.,2018;Donahue et al.,2018)。在逆向強化學習(inverse reinforcement learning)框架中也可以使用對抗性方法學習獎勵函數,或者直接生成模仿學習的專家演示樣例(Ho & Ermon, 2016)。然而,對抗性學習方法的優化問題面臨着很大的挑戰,如何平衡生成器和判別器的性能就是其中之一。一個具有很高準確率的判別器可能會產生信息量較少的梯度,但是一個弱的判別器也可能會不利於提高生成器的學習能力。這些挑戰引起了人們對對抗性學習算法的各種穩定方法的廣泛興趣(Arjovsky et al., 2017; Kodali et al., 2017; Berthelot et al., 2017)。

本研究提出了一種簡單的對抗性學習正則化方法,該方法利用信息瓶頸的變分近似約束從輸入到判別器的信息流。通過對輸入的觀測數據和判別器的內部表徵之間的互信息施加約束,我們可以促使判別器學習到使原始數據和生成器的數據分佈有很多重疊的數據表徵,從而有效地調整判別器的準確率並維持生成器能夠帶有足夠信息量的梯度。這一使對抗性學習穩定的方法可以看作是實例噪聲的自適應方差(Salimans et al., 2016; Sønderby et al., 2016; Arjovsky & Bottou, 2017)。然而,該研究證明了這種方法的自適應特性至關重要。約束判別器內部表徵和輸入之間的互信息可以使正則化項能夠直接限制判別器的準確率,這可以自動完成對噪聲大小的選擇,並將這樣的噪聲應用到該輸入的壓縮表徵上,該表徵是經過專門優化的,能夠對生成器生成的數據和原始數據分佈之間最明顯的差異進行建模。

這項工作的主要貢獻是變分判別器瓶頸(variational discriminator bottleneck,VDB),如圖 1 所示,這是一種用於對抗性學習的自適應隨機正則化方法,可以顯著提高其在不同應用領域上的性能。該方法可以很容易地應用於各種任務和架構。首先,研究者在一組具有挑戰性的模仿學習任務上評估了該方法,這些任務包括從模擬人形機器人的 mocap 數據(動作捕捉數據)中學習高度複雜的技巧。該研究提出的方法還使模擬機器人能夠直接從原始視頻演示樣例中學習動態連續的控制技能,相對於使用對抗性模仿學習的之前工作有很大的改進。研究者進一步評估了逆向強化學習技術的有效性,該技術可以從演示樣例中恢復獎勵函數,用於訓練未來的策略。最後,研究者將該框架應用於生成對抗網絡的圖像生成任務上,在許多情況下,使用 VDB 可以提高模型的性能。

圖 1:該研究提出的方法是通用的,可應用於大量對抗學習任務。左:使用對抗模仿學習進行運動模擬。中:圖像生成。右:通常逆向強化學習學習可遷移獎勵函數。

論文:VARIATIONAL DISCRIMINATOR BOTTLENECK: IMPROVING IMITATION LEARNING, INVERSE RL, AND GANS BY CONSTRAINING INFORMATION FLOW

  • 論文鏈接:https://openreview.net/forum?id=HyxPx3R9tm
  • arXiv鏈接:https://arxiv.org/pdf/1810.00821.pdf

摘要:對抗性學習方法已經得到了廣泛的應用,但是衆所周知,對抗性模型的訓練是很不穩定的。有效地平衡生成器和判別器的性能是至關重要的,因爲一個判別器如果達到很高的準確率,就會產生信息量較少的梯度。本研究提出了一種利用信息瓶頸約束判別器內信息流的簡單而通用的技術。通過對觀測結果和判別器內部表徵之間的互信息進行約束,我們可以有效地調整判別器的準確率,保持有用的、信息量較大的梯度。我們證明了我們提出的變分判別器瓶頸(VDB)可以在三個不同的對抗式學習算法應用領域中顯著提升模型的性能。我們初步的評估研究了 VDB 對動態連續控制技能(如跑步)的模仿學習的適用性,證明我們的方法可以直接從原始視頻演示樣例中學習這些技能,大大超過之前的對抗性模仿學習方法的性能。VDB 還可以與逆向強化學習結合,學習可在新的環境下遷移並重新優化的簡潔獎勵函數。最後,我們證明了 VDB 可以更有效地訓練用於生成圖像的 GAN,相對於之前的穩定方法取得了一定的提升。

圖 2:左圖:變分判別器瓶頸概覽。編碼器首先將樣本 x 映射到潛在分佈 E(z|x) 上。接着,訓練判別器從潛在分佈中對樣本 z 進行分類,將信息瓶頸 I(X, Z) ≤ I_c 作用於 z。右圖:被訓練用來通過不同 KL 邊界 I_c 區分兩個高斯分佈的判別器的可視化結果。

圖 3:模擬人形機器人正在執行各種技能。VAIL 能夠從 mocap 數據中逼真地模仿各種技能。

圖 4:比較 VAIL 與其他運動模仿方法的學習曲線。使用模擬特徵與參考運動形態之間的平均關節旋轉誤差來測量性能。每種方法都使用 3 個隨機種子進行評估。

表 1:人形機器人在運動模擬任務中的平均關節旋轉誤差(弧度值)。除了使用(Peng et al., 2018)中人爲設計的獎勵函數訓練的策略,VAIL 在所有技能的評估中都優於其它方法。

圖 7:左圖:C 形迷宮和 S 形迷宮。當在左邊的迷宮中訓練時,AIRL 學得對於訓練任務過擬合的獎勵,因此這個獎勵不能遷移到右邊的迷宮中。相比之下,VAIRL 學習了一種更平滑的獎勵函數,可以實現更可靠的遷移。右圖:兩個訓練迷宮的翻轉測試的性能。我們報告了 5 次運行後的模仿學習任務的平均返回值(±std. dev)以及用於生成演示樣例的單個專家的平均返回值。

圖 8: 在 CIFAR-10 數據集上使用 VGAN 和其它方法的對比結果,這裏使用 Frechet Inception 距離(FID)作爲評價指標。

圖 9:在 CIFAR-10、CelebA 128×128 和 CelebAHQ 1024×1024 數據集上使用 VGAN 得到的隨機圖像樣本。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章