學界 | 穩定、表徵豐富的球面變分自編碼器

選自arXiv

作者：Jiacheng Xu、Greg Durrett

機器之心編譯

參與：高璇、張倩

經典的 VAE 實現假設潛在空間的先驗函數是多元高斯的，該方法的侷限性在於 KL 項可能會激勵潛變量的後驗分佈「坍縮」到先驗，導致潛在結構無法被充分利用。本文提出使用 von MisesFisher（vMF）分佈代替高斯分佈作爲潛變量，這樣做不僅可以避免 KL 坍縮，而且在一系列建模條件下（包括循環語言建模和詞袋文檔建模），始終能得到比高斯分佈更好的表現。對 vMF 表徵的性質分析表明，相比於高斯狀態，這些性質在它們的潛在表徵上能學習到更豐富、細緻的結構。

1. 引言

近期的研究爲 NLP 的一系列任務建立了深度生成模型的有效性，包括文本生成（Hu et al., 2017; Yu et al., 2017）、機器翻譯（Zhang et al., 2016）以及風格遷移（Shen et al., 2017; Zhao et al., 2017a）。變分自編碼器（VAE）在以往的文本建模中被研究過（Miao et al., 2016; Bowman et al., 2016），研究人員曾提出過一個用來捕獲數據中潛在結構的連續潛變量。經典的 VAE 實現假設潛在空間的先驗函數是多元高斯的，在訓練期間，變分後驗在損失函數的 KL 散度激勵下會近似於先驗值。以往研究發現，該方法的一個主要侷限性是 KL 項可能會激勵潛變量的後驗分佈「坍縮」到先驗，導致潛在結構無法被充分利用（Bowman et al., 2016; Chen et al., 2016）。

本文提出使用 von MisesFisher（vMF）分佈代替高斯分佈作爲潛變量。vMF 將分佈置於由平均參數µ和集中參數 κ控制的單元超球面上。先驗是單位超球面（κ = 0）上的均勻分佈，後驗分佈將κ作爲一個固定模型超參數。由於 KL 散度只取決於κ，研究人員可以從結構上防止 KL 坍縮並簡化模型優化問題。他們表示，這種方法比靈活地學習 κ更具魯棒性，將κ設爲固定值能獲得更好的性能。他們的模型獲得比模擬高斯模型更好的對數似然比，同時有更高的 KL 散度值。這表明在訓練末端更充分地利用了潛變量。

過去的研究已經提出了處理高斯模型下 KL 坍縮的幾項技術。KL 項權重的退火算法在優化過程中仍遺留了魯棒性弱的問題。之前的其他研究（Yang et al., 2017; Semeniuta et al., 2017）側重於利用 CNN 而非 RNN 作爲解碼器，以削弱模型並鼓勵使用潛在編碼，但是收效甚微。以這種方式改變解碼器需要精心調優模型和各種解碼器的容量參數。研究者提出的方法和選擇解碼器是相互獨立的，可以和這些方法中的任意一個相結合，在 VAE 中使用 vMF 分佈也使我們能靈活地以其他方式調整先驗函數，例如使用均勻乘積分佈（Guu et al., 2018）或分段常數項（Serban et al., 2017a）。

研究人員在兩個生成模型範例中評估他們的方法。對於 RNN 語言建模和詞袋建模，研究者發現 vMF 比高斯先驗更加魯棒，並且他們的模型學會了更多地依賴潛變量，同時獲得更好的留存數據似然。爲了更好地理解這些模型的區別，研究人員設計並進行了一系列實驗來理解高斯和 vMF 潛在編碼空間的特性，這些特性使結構假設變得不同。不出所料，這些潛在代碼分佈捕獲了許多與詞袋中相同的信息，但本研究表明，與高斯編碼相比，vMF 做到這一點更加容易，可以更有效地捕獲到排序信息。

圖 1：基於高斯先驗（左）和 vMF 先驗（右）的神經變分 RNN（NVRNN）語言模型。首先由編碼器模型計算變分近似 q_φ(z|x)（虛框）的參數，然後採樣 z 並由 z 生成詞序列 x。圖中顯示了來自 N (0, I) 和 vMF(·,κ = 100) 的樣本，後者都分佈於單位球表面。雖然κ可以從編碼器網絡中預測出來，但實驗發現將κ固定可以得到更穩定的優化和更好的性能。

論文：Spherical Latent Spaces for Stable Variational Autoencoders

論文鏈接：https://arxiv.org/pdf/1808.10805v1.pdf

摘要：用於文本處理的變分自編碼器（VAE）的一個特點是它們結合了強大的編碼-解碼模型（如 LSTM）和簡單的潛在分佈（如多元高斯分佈）。這些模型存在一個困難的優化問題：在變分後驗總是等於先驗時，會陷入一種糟糕的局部最優狀態，而且模型完全不會利用潛變量，這種「坍縮」是由目標的 KL 散度激勵導致的。我們在研究中試驗了潛在分佈的另一種選擇——von Mises-Fisher（vMF）分佈，它將散點放置在單位超球面上。有了先驗和後驗的選擇，KL 散度項就只取決於 vMF 分佈的方差，此時我們就可以將其視爲一個固定的超參數。我們證明了，這樣做不僅可以避免 KL 坍縮，而且在一系列建模條件下（包括循環語言建模和詞袋文檔建模），始終能得到比高斯分佈更好的表現。對 vMF 表徵的性質分析表明，相比於高斯狀態，這些性質在它們的潛在表徵上能學習到更豐富、細緻的結構。

圖 2：學習過程中單個樣本的 q 隨時間變化的優化可視化。在高斯情況下，KL 項使模型更趨於先驗（由µ, σ 到µ', σ'），而在 vMF 中，不存在趨向單一分佈的情況。

表 3：NVRNN 在 PTB 和 Yelp 測試集上的實驗結果。上方的 RNNLM 和 G-VAE 顯示了 Bowman 等人（2016）的結果。括號中顯示的是 KL 散度，以及總 NLL。最好的結果粗體顯示。vMF 始終使用較高的 KL 項權重，但在所有四項中都達到了類似或更好的 NLL 和困惑值。

NVRNN 的實驗結果如表 3 所示。我們在測試集中報告了負對數似然比（NLL）和困惑值（PPL）。我們遵循了 Bowman 等人（2016）的實驗，該實驗對高斯 VAE 的 KL 項權值做了退火處理；vMF VAE 不需要權重退火就能很好地工作。vMF 分佈在 Standard 和 Inputless 設置的所有數據集中都使性能得到提升。即使在 Standard 設置下，我們的模型也能成功地使用非零 KL 值達到更好的困惑值，甚至沒出現 KL 坍縮（如在 PTBStandard 設置中的 G-VAE）。可能由於優化存在困難，高斯分佈會導致較低的 KL 和糟糕的的對數似然比。在 Inputless 設置中，我們看到了巨大的提升：與高斯 VAE 相比，vMF VAE 在 PTB 中將 PPL 從 379 降到 262，在 Yelp 中從 256 降到 134。

圖 4：不同超參數下的高斯和 vMF-NVRNN 的比較。所有的模型都是在 Inputless 設置下在 PTB 上訓練的，其中潛在維數爲 50.G-α表明高斯 VAE 與 KL 由給定的常數α退火，V-κ表明 VAE 將κ設置爲既定值。綠條反映的是 KL 損失的數量，總高度反映的是整個目標。豎條上的數字是困惑值。vMF 的可調性更強，在廣泛的κ值範圍內也能獲得更好的結果。

本文爲機器之心編譯，轉載請聯繫本公衆號獲得授權。

學界 | 穩定、表徵豐富的球面變分自編碼器

Nginx R31 doc 官方文檔-01-nginx 如何安裝

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

golang開發環境搭建(win10)

教程 | 神經網絡的奧祕之優化器的妙用

要玩轉這個星際爭霸II開源AI，你只需要i5+GTX1050

我的八年博士生涯——CMU王贇寫在入職Facebook之前

NeurIPS 2018亮點選讀：深度推理學習中的圖網絡與關係表徵

CVPR論文復現爭議後續：華人一作苦戰兩月給出有態度的分析結果

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結