學界 | 穩定、表徵豐富的球面變分自編碼器

選自arXiv

作者:Jiacheng Xu、Greg Durrett

機器之心編譯

參與:高璇、張倩

經典的 VAE 實現假設潛在空間的先驗函數是多元高斯的,該方法的侷限性在於 KL 項可能會激勵潛變量的後驗分佈「坍縮」到先驗,導致潛在結構無法被充分利用。本文提出使用 von MisesFisher(vMF)分佈代替高斯分佈作爲潛變量,這樣做不僅可以避免 KL 坍縮,而且在一系列建模條件下(包括循環語言建模和詞袋文檔建模),始終能得到比高斯分佈更好的表現。對 vMF 表徵的性質分析表明,相比於高斯狀態,這些性質在它們的潛在表徵上能學習到更豐富、細緻的結構。

1. 引言

近期的研究爲 NLP 的一系列任務建立了深度生成模型的有效性,包括文本生成(Hu et al., 2017; Yu et al., 2017)、機器翻譯(Zhang et al., 2016)以及風格遷移(Shen et al., 2017; Zhao et al., 2017a)。變分自編碼器(VAE)在以往的文本建模中被研究過(Miao et al., 2016; Bowman et al., 2016),研究人員曾提出過一個用來捕獲數據中潛在結構的連續潛變量。經典的 VAE 實現假設潛在空間的先驗函數是多元高斯的,在訓練期間,變分後驗在損失函數的 KL 散度激勵下會近似於先驗值。以往研究發現,該方法的一個主要侷限性是 KL 項可能會激勵潛變量的後驗分佈「坍縮」到先驗,導致潛在結構無法被充分利用(Bowman et al., 2016; Chen et al., 2016)。

本文提出使用 von MisesFisher(vMF)分佈代替高斯分佈作爲潛變量。vMF 將分佈置於由平均參數µ和集中參數 κ控制的單元超球面上。先驗是單位超球面(κ = 0)上的均勻分佈,後驗分佈將κ作爲一個固定模型超參數。由於 KL 散度只取決於κ,研究人員可以從結構上防止 KL 坍縮並簡化模型優化問題。他們表示,這種方法比靈活地學習 κ更具魯棒性,將κ設爲固定值能獲得更好的性能。他們的模型獲得比模擬高斯模型更好的對數似然比,同時有更高的 KL 散度值。這表明在訓練末端更充分地利用了潛變量。

過去的研究已經提出了處理高斯模型下 KL 坍縮的幾項技術。KL 項權重的退火算法在優化過程中仍遺留了魯棒性弱的問題。之前的其他研究(Yang et al., 2017; Semeniuta et al., 2017)側重於利用 CNN 而非 RNN 作爲解碼器,以削弱模型並鼓勵使用潛在編碼,但是收效甚微。以這種方式改變解碼器需要精心調優模型和各種解碼器的容量參數。研究者提出的方法和選擇解碼器是相互獨立的,可以和這些方法中的任意一個相結合,在 VAE 中使用 vMF 分佈也使我們能靈活地以其他方式調整先驗函數,例如使用均勻乘積分佈(Guu et al., 2018)或分段常數項(Serban et al., 2017a)。

研究人員在兩個生成模型範例中評估他們的方法。對於 RNN 語言建模和詞袋建模,研究者發現 vMF 比高斯先驗更加魯棒,並且他們的模型學會了更多地依賴潛變量,同時獲得更好的留存數據似然。爲了更好地理解這些模型的區別,研究人員設計並進行了一系列實驗來理解高斯和 vMF 潛在編碼空間的特性,這些特性使結構假設變得不同。不出所料,這些潛在代碼分佈捕獲了許多與詞袋中相同的信息,但本研究表明,與高斯編碼相比,vMF 做到這一點更加容易,可以更有效地捕獲到排序信息。

圖 1:基於高斯先驗(左)和 vMF 先驗(右)的神經變分 RNN(NVRNN)語言模型。首先由編碼器模型計算變分近似 q_φ(z|x)(虛框)的參數,然後採樣 z 並由 z 生成詞序列 x。圖中顯示了來自 N (0, I) 和 vMF(·,κ = 100) 的樣本,後者都分佈於單位球表面。雖然κ可以從編碼器網絡中預測出來,但實驗發現將κ固定可以得到更穩定的優化和更好的性能。

論文:Spherical Latent Spaces for Stable Variational Autoencoders

論文鏈接:https://arxiv.org/pdf/1808.10805v1.pdf

摘要:用於文本處理的變分自編碼器(VAE)的一個特點是它們結合了強大的編碼-解碼模型(如 LSTM)和簡單的潛在分佈(如多元高斯分佈)。這些模型存在一個困難的優化問題:在變分後驗總是等於先驗時,會陷入一種糟糕的局部最優狀態,而且模型完全不會利用潛變量,這種「坍縮」是由目標的 KL 散度激勵導致的。我們在研究中試驗了潛在分佈的另一種選擇——von Mises-Fisher(vMF)分佈,它將散點放置在單位超球面上。有了先驗和後驗的選擇,KL 散度項就只取決於 vMF 分佈的方差,此時我們就可以將其視爲一個固定的超參數。我們證明了,這樣做不僅可以避免 KL 坍縮,而且在一系列建模條件下(包括循環語言建模和詞袋文檔建模),始終能得到比高斯分佈更好的表現。對 vMF 表徵的性質分析表明,相比於高斯狀態,這些性質在它們的潛在表徵上能學習到更豐富、細緻的結構。

圖 2:學習過程中單個樣本的 q 隨時間變化的優化可視化。在高斯情況下,KL 項使模型更趨於先驗(由µ, σ 到µ', σ'),而在 vMF 中,不存在趨向單一分佈的情況。

表 3:NVRNN 在 PTB 和 Yelp 測試集上的實驗結果。上方的 RNNLM 和 G-VAE 顯示了 Bowman 等人(2016)的結果。括號中顯示的是 KL 散度,以及總 NLL。最好的結果粗體顯示。vMF 始終使用較高的 KL 項權重,但在所有四項中都達到了類似或更好的 NLL 和困惑值。

NVRNN 的實驗結果如表 3 所示。我們在測試集中報告了負對數似然比(NLL)和困惑值(PPL)。我們遵循了 Bowman 等人(2016)的實驗,該實驗對高斯 VAE 的 KL 項權值做了退火處理;vMF VAE 不需要權重退火就能很好地工作。vMF 分佈在 Standard 和 Inputless 設置的所有數據集中都使性能得到提升。即使在 Standard 設置下,我們的模型也能成功地使用非零 KL 值達到更好的困惑值,甚至沒出現 KL 坍縮(如在 PTBStandard 設置中的 G-VAE)。可能由於優化存在困難,高斯分佈會導致較低的 KL 和糟糕的的對數似然比。在 Inputless 設置中,我們看到了巨大的提升:與高斯 VAE 相比,vMF VAE 在 PTB 中將 PPL 從 379 降到 262,在 Yelp 中從 256 降到 134。

圖 4:不同超參數下的高斯和 vMF-NVRNN 的比較。所有的模型都是在 Inputless 設置下在 PTB 上訓練的,其中潛在維數爲 50.G-α表明高斯 VAE 與 KL 由給定的常數α退火,V-κ表明 VAE 將κ設置爲既定值。綠條反映的是 KL 損失的數量,總高度反映的是整個目標。豎條上的數字是困惑值。vMF 的可調性更強,在廣泛的κ值範圍內也能獲得更好的結果。

本文爲機器之心編譯,轉載請聯繫本公衆號獲得授權。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章