頻率學派與貝葉斯學派

原創

2018-09-04 08:45

Key point

頻率學派（Frequentist）- Maximun Likelihood Estimation（MLE，最大似然估計）

貝葉斯學派（Bayesian）- Maximum A Posteriori（MAP，最大後驗估計）

兩大學派的爭論

抽象地說，兩大學派對世界的認知有本質不同：

頻率學派認爲世界是確定的，有一個本體，這個本體的真值是不變的，我們的目標是找到這個真值或真值所在的範圍；
貝葉斯學派認爲世界是不確定的，人們對世界先有一個預判，而後通過觀測數據對這個預判做調整，我們的目標是找到最優的描述這個世界的概率分佈。

頻率學派

θ 是一個參數，存在唯一真值θ 。舉一個拋硬幣的例子，用P(head) 來表示硬幣的bias。拋一個硬幣100次，有20次正面朝上，要估計正面朝上的biasP(head)=θ ，頻率學派認爲θ=0.2 。

當數據趨向無窮大時，這種方法能給出精確的估計，但是當數據缺乏時可能產生嚴重的偏差。如，對於一枚均勻硬幣，θ=0.5 ，拋5次，每次都是正面朝上，那頻率學派會估計這枚硬幣θ=1 ，出現嚴重錯誤。

貝葉斯學派

θ 是一個隨機變量，符合一定的概率分佈。貝葉斯學派裏輸入是先驗（prior）和似然（likelihood），輸出是後驗（posterior）。

先驗，即P(θ) ，指的是沒有觀測到任何數據時對θ 的預先判斷，例如對於一枚硬幣，一種可行的先驗的是認爲這個硬幣有很大的概率是均勻的，有較小的概率是不均勻的；似然，即P(θ) ，是假設已知我們觀察到的數據應該是什麼樣子的；後驗，即P(θ|X) ，是最終的參數分佈。

貝葉斯估計的基礎是貝葉斯公式，如下：

P (θ | X) = P ( X | θ ) \times P ( θ ) P ( X )

同樣是拋硬幣，對一枚均勻硬幣拋5次得5次正面，如果先驗認爲大概率下這個硬幣是均勻的，那麼

P(head) ，即

P(θ|X) ，是一個分佈，其最大值介於0.5~1之間，而不是像頻率學派武斷的得出是1。

有兩個需要注意：

隨着數據量的增加，參數分佈會越來越向數據靠攏，先驗的影響力會越來越小；
如果先驗是均勻分佈（uniform distribution），那麼貝葉斯方法等價於頻率方法。因爲直觀上來講，先驗是均勻分佈本質上對事物沒有任何預判。

MLE - 最大似然估計

MLE是頻率學派常用的估計方法。

假設數據x1,x2,…,xn 是i.i.d.（獨立同分布）的一組抽樣，X=(x1,x2,…xn) 。那麼MLE對θ 的估計方法如下：

θ ̂ M L E = arg max P (X; θ) = arg max P (x 1; θ) P (x 2; θ) . . . P (x n; θ) = arg max log \prod i = 1 n P (x i; θ) = arg max \sum i = 1 n log P (x i; θ) = arg min - \sum i = 1 n log P (x i; θ)

最後一行所優化的函數被稱爲負對數似然（Negative Log Likehood, NLL）。

我們經常在不經意間使用MLE，例如

關於頻率學派求硬幣概率的例子，其本質是在優化NLL。解釋如下：

因爲拋硬幣可以表示爲參數爲θ 的Bernoulli分佈，即:

P (x i; θ) = {θ 1 - θ x i = 1 x i = 0 = θ x i (1 - θ) (1 - x i)

其中

xi=1 表示第i次拋出正面，那麼

N L L = - \sum i = 1 n log P (x i; θ) = - \sum i = 1 n log θ x i (1 - θ) 1 - x i

求導數並使其等於零，得到

N L L' = - \sum i = 1 n (x i θ + (1 - x i) - 1 1 - θ) = 0

即

θ ̂ = \sum n i = 1 x i n

也就是正面的次數除以總共的拋擲次數。

給定一些數據，求對應的高斯分佈時，我們經常會算這些數據點的均值和方差然後帶入到高斯分佈的公式，其理論依據是優化NLL。
深度學習做分類任務時所用的交叉熵損失（cross entropy loss），其本質也是MLE。

MAP - 最大後驗估計

MAP是貝葉斯學派常用的估計方法。

假設數據x1,x2,…,xn 是i.i.d.（獨立同分布）的一組抽樣，X=(x1,x2,…xn) 。那麼MAP對θ 的估計方法如下：

θ ̂ M A P = arg max P (θ | X) = arg min - log P (θ | X) = arg min - log P (X | θ) - log P (θ) + log P (X) = arg min - log P (X | θ) - log P (θ)

其中，第二行到第三行用了貝葉斯定理，

logP(X) 與

θ 無關，所以丟棄。注意

−logP(X|θ) 其實就是NLL，所以MLE和MAP在優化時的不同就是在於先驗項

−logP(θ) 。

現在來看一下這個先驗項，假定先驗是一個高斯分佈，即

P (θ) = c o n s t a n t \times e - θ 2 2 σ 2

那麼，

- log P (θ) = c o n s t a n t + θ 2 2 σ 2

至此，可以發現：在MAP中使用一個高斯分佈的先驗等價於在MLE中採用L2的正則項（regularization）。

參考

頻率學派還是貝葉斯學派？聊一聊機器學習中的MLE和MAP
如有侵權，請告知，多謝。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

頻率學派與貝葉斯學派

Key point

兩大學派的爭論

頻率學派

貝葉斯學派

MLE - 最大似然估計

MAP - 最大後驗估計

參考

2012-NSDI-RDD

常用Linux命令--刪除及清理

常用Linux命令--解壓

本地訪問服務器jupyter notebook

循環神經網絡2--LSTM

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結