1. 標題:在變分推斷中使用GMM和householder
2. 摘要精讀
3. 文中需要掌握的知識點
3.1 什麼是Normalizing Flow
3.2 通過NF得到了什麼樣得變分下界
- 通過NF,我們得後驗分佈可以變爲如下,其中,z維隨機變量,服從q分佈,行列式維雅可比矩陣。
- 然後利用性質:
- 得到變分下界
3.3 網絡的結構
3.4 如何計算兩個GMM之間的KL散度(會推導)
- 利用一個log-sum不等式
- 我們知道單個高斯之間的KL散度是有解析解的,我們通過這樣的不等式得到了一個有解析解的上界,這對我們計算KL散度有很大的幫助。所以我們定義,
3.5 Householder Flow
- 這樣就解決了變分下界的第二項
3.6 總結算法
4. 實驗部分需要注意的地方
- 通過實驗證明,GMM分佈中的mixture_logits的係數不會影響實驗的效果,所以可以將mixture_logits平均分配即可
- VAEGH表現比其他模型都要好。
- 隨着components M的增大,我們可以得到一個更加靈活和複雜的近似後驗分佈,因此,重構誤差會變得越來越好。但是另一方面,當M 很大時,整個網絡的參數量會急劇增加,這肯定會影響網絡的性能
- 所以說我們的後驗分佈的靈活性不僅取決於M的選擇,而且更重要的是取決於從GMM中學習到的均值和方差。
5. 我覺得比較好的圖
- MNIST和Fashion-MNIST兩個數據集的µ平均值的二維可視化。每個圖形由40維潛在變量空間的t-SNE進行轉換。在每一行中,從左到右,結果與VAE和我們的方法相對應,依次爲M、2、3、10和50。每種顏色代表一個類別標籤。