變分貝葉斯

原文鏈接:https://www.jiqizhixin.com/graph/technologies/6d2f1b85-5b68-4427-abf1-e29a5075f66e

原文 : https://www.jiqizhixin.com/graph/technologies/6d2f1b85-5b68-4427-abf1-e29a5075f66e

變分貝葉斯是一類用於貝葉斯估計和機器學習領域中近似計算複雜(intractable)積分的技術。它主要應用於複雜的統計模型中,這種模型一般包括三類變量:觀測變量(observed variables, data),未知參數(parameters)和潛變量(latent variables)。在貝葉斯推斷中,參數和潛變量統稱爲不可觀測變量(unobserved variables)。變分貝葉斯方法主要是兩個目的:

  1. 近似不可觀測變量的後驗概率,以便通過這些變量作出統計推斷。
  2. 對一個特定的模型,給出觀測變量的邊緣似然函數 marginal probability(或稱爲證據,evidence)的下界。主要用於模型的選擇,認爲模型的邊緣似然值越高,則模型對數據擬合程度越好,該模型產生Data的概率也越高。

對於第一個目的,蒙特卡洛模擬Monte Carlo sampling ,特別是用Gibbs取樣的MCMC方法,可以近似計算複雜的後驗分佈,能很好地應用到貝葉斯統計推斷。此方法通過大量的樣本估計真實的後驗,因而近似結果帶有一定的隨機性。與此不同的是,變分貝葉斯方法提供一種局部最優,但具有確定解的近似後驗方法。

從某種角度看,變分貝葉斯可以看做是EM算法的擴展,因爲它也是採用極大後驗估計(MAP),即用單個最有可能的參數值來代替完全貝葉斯估計。另外,變分貝葉斯也通過一組相互依然(mutually dependent)的等式進行不斷的迭代來獲得最優解。

 

平均場估計下邊緣概率的無意義性 (VB-marginals)

注意到Q(Z)估計的是聯合概率密度,而對於每一個Qi(Zi),其與真實的邊緣概率密度Pi(Zi)的差別可能是很大的。不應該用Qi(Zi)Qi(Zi)來估計真實的邊緣密度,比如在一個貝葉斯網絡中,你不應該用它來推測某個節點的狀態。而這其實是很糟糕的,相比於其他能夠使用節點狀態信息來進行局部推測的算法,變分貝葉斯方法更不利於調試。

比如一個標準的高斯聯合分佈P(μ,x)和最優的平均場高斯估計Q(μ,x)。Q選擇了在它自己作用域中的高斯分佈,因而變得很窄。此時邊緣密度Qx(x)變得非常小,完全與Px(x)不同。

瓶頸

變分貝葉斯的思想是建立一種近似於未觀測變量(參數和潛在變量)的後驗概率。這意味着該解決方案的形式類似於其他貝葉斯推理方法,如 Gibbs sampling,即一個試圖描述所有已知變量的分佈。

變分貝葉斯的侷限性

1。結果很大程度上取決於優化的起點。例子:這篇論文被大量引用,但已知存在嚴重問題(基於它的軟件包後來被撤回,等等)。

2。計算出要優化的內容通常非常複雜。(參見任何關於變分推理的論文)

未來發展方向

變分推斷(variational inference)啓發式更新神經網絡的內部參數。其性能效果堪比dropout方法,並且在增強學習中有較好表現。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章