最大似然估計與最大後驗估計

  • 本文首發自公衆號:RAIS,公式顯示錯誤請到:這裏 查看。

前言

本系列文章爲 《Deep Learning》 讀書筆記,可以參看原書一起閱讀,效果更佳。

MLE VS MAP

最大似然函數(MLE)和最大後驗概率估計(MAP)是兩種完全不同的估計方法,最大似然函數屬於頻率派統計(認爲存在唯一真值 θ),最大後驗估計屬於貝葉斯統計(認爲 θ 是一個隨機變量,符合一定的概率分佈),這是兩種認識方法的差異。模型不變,概率是參數推數據,統計是數據推參數。

最大似然估計

似然函數是一種關於模型中參數的函數,是根據模型的觀測值,估計模型中參數的值。給定輸出 x ,關於 θ 的似然函數 L(θ|x) 數值上等於給定參數 θ 後變量 X 的概率。其數學定義爲:

\[L(θ|x)=f_θ(x)=P_θ(X=x) \]

最大似然估計是其中的一種好的估計,在樣本趨近於無窮時,最大似然是收斂率最好的漸進估計,且由於它的一致性和統計效率,在機器學習中也是首選的估計方法。在獨立同分布情況下:

\[\hatθ_{MLE}=argmaxP(X;θ)=argmaxP(x_1;θ)P(x_2;θ)...P(x_n;θ) =argmax\log\prod_{i=1}^nP(x_i;θ)\\\\=argmax\sum_{i=1}^n\log P(x_i;θ) =argmin-\sum_{i=1}^n\log P(x_i;θ)//負對數似然 \]

由於對數函數單調增,因此想要求 L 的最大值,可以求其對數作爲求其最大值的函數,這樣求出的結果是相同的。深度學習所做分類任務中用到的交叉熵本質是求最大似然函數。

條件最大似然估計

\[\hatθ_{MLE}=argmaxP(Y|X;θ)=argmax\sum_{i=1}^{m}\log{P(y^{(i)}|x^{(i)}|θ)} \]

最大後驗估計

貝葉斯公式:

\[P(θ|x)=\frac{P(x|θ)P(θ)}{P(x)} \]

其中 P(x|θ) 是似然函數,P(θ) 是先驗概率。

則最大後驗估計的數學定義爲:

\[\hat \theta_{MAP}(x)=\arg \max_\theta f(\theta|x)=\arg \max_\theta \frac{f(x|\theta)g(\theta)}{\int_\vartheta f(x|\vartheta)g(\vartheta)d\vartheta}=\arg\max_\theta f(x|\theta)g(\theta) \]

theta 爲需要估計的參數,f 爲概率,g 爲先驗估計,最大化後驗估計通過 f·g 求得。當先驗分佈爲常數時,最大後驗估計與最大似然估計重合。

總結

最大似然估計與最大後驗估計對比分析。

  • 本文首發自公衆號:RAIS,公式顯示錯誤請到:這裏 查看。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章