最大似然估計與最大後驗估計

原創

renyuzhuo

2020-04-04 13:52

本文首發自公衆號：RAIS，公式顯示錯誤請到：這裏查看。

前言

本系列文章爲《Deep Learning》讀書筆記，可以參看原書一起閱讀，效果更佳。

MLE VS MAP

最大似然函數（MLE）和最大後驗概率估計（MAP）是兩種完全不同的估計方法，最大似然函數屬於頻率派統計（認爲存在唯一真值 θ），最大後驗估計屬於貝葉斯統計（認爲 θ 是一個隨機變量，符合一定的概率分佈），這是兩種認識方法的差異。模型不變，概率是參數推數據，統計是數據推參數。

最大似然估計

似然函數是一種關於模型中參數的函數，是根據模型的觀測值，估計模型中參數的值。給定輸出 x ，關於 θ 的似然函數 L(θ|x) 數值上等於給定參數 θ 後變量 X 的概率。其數學定義爲：

\[L(θ|x)=f_θ(x)=P_θ(X=x) \]

最大似然估計是其中的一種好的估計，在樣本趨近於無窮時，最大似然是收斂率最好的漸進估計，且由於它的一致性和統計效率，在機器學習中也是首選的估計方法。在獨立同分布情況下：

\[\hatθ_{MLE}=argmaxP(X;θ)=argmaxP(x_1;θ)P(x_2;θ)...P(x_n;θ) =argmax\log\prod_{i=1}^nP(x_i;θ)\\\\=argmax\sum_{i=1}^n\log P(x_i;θ) =argmin-\sum_{i=1}^n\log P(x_i;θ)//負對數似然 \]

由於對數函數單調增，因此想要求 L 的最大值，可以求其對數作爲求其最大值的函數，這樣求出的結果是相同的。深度學習所做分類任務中用到的交叉熵本質是求最大似然函數。

條件最大似然估計

\[\hatθ_{MLE}=argmaxP(Y|X;θ)=argmax\sum_{i=1}^{m}\log{P(y^{(i)}|x^{(i)}|θ)} \]

最大後驗估計

貝葉斯公式：

\[P(θ|x)=\frac{P(x|θ)P(θ)}{P(x)} \]

其中 P(x|θ) 是似然函數，P(θ) 是先驗概率。

則最大後驗估計的數學定義爲：

\[\hat \theta_{MAP}(x)=\arg \max_\theta f(\theta|x)=\arg \max_\theta \frac{f(x|\theta)g(\theta)}{\int_\vartheta f(x|\vartheta)g(\vartheta)d\vartheta}=\arg\max_\theta f(x|\theta)g(\theta) \]

theta 爲需要估計的參數，f 爲概率，g 爲先驗估計，最大化後驗估計通過 f·g 求得。當先驗分佈爲常數時，最大後驗估計與最大似然估計重合。

總結

最大似然估計與最大後驗估計對比分析。

本文首發自公衆號：RAIS，公式顯示錯誤請到：這裏查看。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

最大似然估計與最大後驗估計

前言

MLE VS MAP

最大似然估計

條件最大似然估計

最大後驗估計

總結

三種梯度下降算法的區別(BGD, SGD, MBGD)

數據降維：主成分分析法

深度學習中的正則化(一)

考研經歷吐血總結

無監督學習算法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結