前言
本系列文章爲 《Deep Learning》 讀書筆記,可以參看原書一起閱讀,效果更佳。
MLE VS MAP
最大似然函數(MLE)和最大後驗概率估計(MAP)是兩種完全不同的估計方法,最大似然函數屬於頻率派統計(認爲存在唯一真值 θ),最大後驗估計屬於貝葉斯統計(認爲 θ 是一個隨機變量,符合一定的概率分佈),這是兩種認識方法的差異。模型不變,概率是參數推數據,統計是數據推參數。
最大似然估計
似然函數是一種關於模型中參數的函數,是根據模型的觀測值,估計模型中參數的值。給定輸出 x ,關於 θ 的似然函數 L(θ|x) 數值上等於給定參數 θ 後變量 X 的概率。其數學定義爲:
最大似然估計是其中的一種好的估計,在樣本趨近於無窮時,最大似然是收斂率最好的漸進估計,且由於它的一致性和統計效率,在機器學習中也是首選的估計方法。在獨立同分布情況下:
由於對數函數單調增,因此想要求 L 的最大值,可以求其對數作爲求其最大值的函數,這樣求出的結果是相同的。深度學習所做分類任務中用到的交叉熵本質是求最大似然函數。
條件最大似然估計
最大後驗估計
貝葉斯公式:
其中 P(x|θ) 是似然函數,P(θ) 是先驗概率。
則最大後驗估計的數學定義爲:
theta 爲需要估計的參數,f 爲概率,g 爲先驗估計,最大化後驗估計通過 f·g 求得。當先驗分佈爲常數時,最大後驗估計與最大似然估計重合。
總結
最大似然估計與最大後驗估計對比分析。