Key point
頻率學派(Frequentist)- Maximun Likelihood Estimation(MLE,最大似然估計)
貝葉斯學派(Bayesian)- Maximum A Posteriori(MAP,最大後驗估計)
兩大學派的爭論
抽象地說,兩大學派對世界的認知有本質不同:
- 頻率學派認爲世界是確定的,有一個本體,這個本體的真值是不變的,我們的目標是找到這個真值或真值所在的範圍;
- 貝葉斯學派認爲世界是不確定的,人們對世界先有一個預判,而後通過觀測數據對這個預判做調整,我們的目標是找到最優的描述這個世界的概率分佈。
頻率學派
當數據趨向無窮大時,這種方法能給出精確的估計,但是當數據缺乏時可能產生嚴重的偏差。如,對於一枚均勻硬幣,
貝葉斯學派
先驗,即
貝葉斯估計的基礎是貝葉斯公式,如下:
同樣是拋硬幣,對一枚均勻硬幣拋5次得5次正面,如果先驗認爲大概率下這個硬幣是均勻的,那麼
有兩個需要注意:
- 隨着數據量的增加,參數分佈會越來越向數據靠攏,先驗的影響力會越來越小;
- 如果先驗是均勻分佈(uniform distribution),那麼貝葉斯方法等價於頻率方法。因爲直觀上來講,先驗是均勻分佈本質上對事物沒有任何預判。
MLE - 最大似然估計
MLE是頻率學派常用的估計方法。
假設數據
最後一行所優化的函數被稱爲負對數似然(Negative Log Likehood, NLL)。
我們經常在不經意間使用MLE,例如
- 關於頻率學派求硬幣概率的例子,其本質是在優化NLL。解釋如下:
因爲拋硬幣可以表示爲參數爲
其中
求導數並使其等於零,得到
即
也就是正面的次數除以總共的拋擲次數。
- 給定一些數據,求對應的高斯分佈時,我們經常會算這些數據點的均值和方差然後帶入到高斯分佈的公式,其理論依據是優化NLL。
- 深度學習做分類任務時所用的交叉熵損失(cross entropy loss),其本質也是MLE。
MAP - 最大後驗估計
MAP是貝葉斯學派常用的估計方法。
假設數據
其中,第二行到第三行用了貝葉斯定理,
現在來看一下這個先驗項,假定先驗是一個高斯分佈,即
那麼,
至此,可以發現:在MAP中使用一個高斯分佈的先驗等價於在MLE中採用L2的正則項(regularization)。
參考
頻率學派還是貝葉斯學派?聊一聊機器學習中的MLE和MAP
如有侵權,請告知,多謝。