Auto-Encoding Variational Bayes 論文解讀

1.How can we perform efficient inference and learning in directed probabilistic models, in the presence of continuous latent variables with intractable posterior distributions, and large datasets?

keyword  intractable posterior distributions

reference:https://www.cs.toronto.edu/~rsalakhu/talks/talk_inference.pdf

學單詞系列,我尋思這論文intractable能表達的意思比hard要多多少?

這就是一個簡單的貝葉斯推斷,然而這個貝葉斯推斷需要後驗概率,這個在現實世界是很難得到的。

We introduce a stochastic variational inference and learning algorithm that scales to large datasets and, under some mild differentiability conditions, even works in the intractable case.

keyword  stochastic variational inference

隨機變分推斷,首先是變分推斷,這是得到之前後來概率的一種手段,採用的是變分法。高數裏面變分法的簡單應用就是拉格朗日方程求函數的極值 wiki如下

歐拉-拉格朗日方程(英語:Euler-Lagrange equation)爲變分法中的一條重要方程。它提供了求泛函的臨界值(平穩值)函數,換句話說也就是求此泛函在其定義域的臨界點的一個方法,與微積分差異的地方在於,泛函的定義域爲函數空間而不是。

 

關鍵的目標就是用一個現實世界容易得到的分佈去逼近難以得到的後驗分佈 

這是推斷的模型嗎?

 

 首先要知道marginal likelihood 是什麼,這個其實是貝葉斯估計的內容

 

 也叫model evidence 這樣說好理解一點,對於上式theta就是evidence我猜

  • 最大似然估計屬於頻率派統計 (frequentist statistics) 的方法,即對模型的參數 \theta 進行點估計,然後基於該估計對新來的樣本做預測。這種視角下:真實參數 \theta 是未知的定值,而數據集是由該分佈下產生的隨機變量。最大似然方法即是一種對真實參數 \theta 進行點估計的方法,做法即是求得參數在數據集上的似然值,取似然值最大的那組參數 \hat{\theta} 來作爲真實參數 \theta 的估計。
  • VI 屬於貝葉斯統計 (Bayesian statistics) 的範疇,這種視角下,概率反映的是知識狀態的確定性程度。數據集不是隨機變量,而是固定的觀測。真實參數 \theta 是未知和不確定的,被認爲是隨機變量。在這個範疇下,由先驗概率 p(\theta) 的概念,我們用它來表示對參數 \theta 已經有的一些知識。先驗 p(\theta) 是關於參數 \theta 的分佈,一般將這個分佈定義爲簡單的均勻分佈或其他一些熵值較大的分佈。



作者:葉小倫
鏈接:https://www.zhihu.com/question/41765860/answer/505460606
來源:知乎
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處

貝葉斯估計就是新來的觀測值對參數theta不斷更新的過程,但是這個過程中theta是看作一個隨機變量,因此預測需要計算全分佈,而最大likelihood估計則是對theta進行點估計,再進行預測

。可見貝葉斯估計計算量非常大

Variational Inference (VI)

從上一節可以看到,概率密度函數(或概率分佈函數)在貝葉斯統計中非常重要,而 VI 就是一類對那些難處理的概率密度函數進行估計的方法,另一類方法是基於採樣的方法 (Markov chain Monte Carlo, MCMC),這兩類方法可以有一個簡單的對比,VI 更適合於大數據集場景下 ( VI 將推斷視作優化問題),而 MCMC 更適合於數據集高質量但是卻很少的情況下。關於 MCMC 可以參見其他的資料。

Jordan (2008) 曾經對 Variational Inference 給出來一個直觀的定義:

Any procedure which uses optimization to approximate a density can be termed ``variational inference''.

 



作者:葉小倫
鏈接:https://www.zhihu.com/question/41765860/answer/505460606
來源:知乎
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。

我終於知道爲什麼叫變分推斷了,首先目的是爲了推斷,通過變分的手段,也就是優化的手段就進行推斷。

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章