頻率學派與貝葉斯學派

Key point

頻率學派(Frequentist)- Maximun Likelihood Estimation(MLE,最大似然估計)

貝葉斯學派(Bayesian)- Maximum A Posteriori(MAP,最大後驗估計)

兩大學派的爭論

抽象地說,兩大學派對世界的認知有本質不同:

  1. 頻率學派認爲世界是確定的,有一個本體,這個本體的真值是不變的,我們的目標是找到這個真值或真值所在的範圍;
  2. 貝葉斯學派認爲世界是不確定的,人們對世界先有一個預判,而後通過觀測數據對這個預判做調整,我們的目標是找到最優的描述這個世界的概率分佈。

頻率學派

θ 是一個參數,存在唯一真值θ 。舉一個拋硬幣的例子,用P(head) 來表示硬幣的bias。拋一個硬幣100次,有20次正面朝上,要估計正面朝上的biasP(head)=θ ,頻率學派認爲θ=0.2

當數據趨向無窮大時,這種方法能給出精確的估計,但是當數據缺乏時可能產生嚴重的偏差。如,對於一枚均勻硬幣,θ=0.5 ,拋5次,每次都是正面朝上,那頻率學派會估計這枚硬幣θ=1 ,出現嚴重錯誤。

貝葉斯學派

θ 是一個隨機變量,符合一定的概率分佈。貝葉斯學派裏輸入是先驗(prior)和似然(likelihood),輸出是後驗(posterior)。

先驗,即P(θ) ,指的是沒有觀測到任何數據時對θ 的預先判斷,例如對於一枚硬幣,一種可行的先驗的是認爲這個硬幣有很大的概率是均勻的,有較小的概率是不均勻的;似然,即P(θ) ,是假設已知我們觀察到的數據應該是什麼樣子的;後驗,即P(θ|X) ,是最終的參數分佈。

貝葉斯估計的基礎是貝葉斯公式,如下:

P(θ|X)=P(X|θ)×P(θ)P(X)

同樣是拋硬幣,對一枚均勻硬幣拋5次得5次正面,如果先驗認爲大概率下這個硬幣是均勻的,那麼P(head) ,即P(θ|X) ,是一個分佈,其最大值介於0.5~1之間,而不是像頻率學派武斷的得出是1。

有兩個需要注意:

  1. 隨着數據量的增加,參數分佈會越來越向數據靠攏,先驗的影響力會越來越小;
  2. 如果先驗是均勻分佈(uniform distribution),那麼貝葉斯方法等價於頻率方法。因爲直觀上來講,先驗是均勻分佈本質上對事物沒有任何預判。

MLE - 最大似然估計

MLE是頻率學派常用的估計方法。

假設數據x1,x2,,xn 是i.i.d.(獨立同分布)的一組抽樣,X=(x1,x2,xn) 。那麼MLE對θ 的估計方法如下:

θ̂ MLE=argmaxP(X;θ)=argmaxP(x1;θ)P(x2;θ)...P(xn;θ)=argmaxlogi=1nP(xi;θ)=argmaxi=1nlogP(xi;θ)=argmini=1nlogP(xi;θ)

最後一行所優化的函數被稱爲負對數似然(Negative Log Likehood, NLL)。

我們經常在不經意間使用MLE,例如

  • 關於頻率學派求硬幣概率的例子,其本質是在優化NLL。解釋如下:

因爲拋硬幣可以表示爲參數爲θ 的Bernoulli分佈,即:

P(xi;θ)={θ1θxi=1xi=0=θxi(1θ)(1xi)

其中xi=1 表示第i次拋出正面,那麼
NLL=i=1nlogP(xi;θ)=i=1nlogθxi(1θ)1xi

求導數並使其等於零,得到
NLL=i=1n(xiθ+(1xi)11θ)=0


θ̂ =ni=1xin

也就是正面的次數除以總共的拋擲次數。
  • 給定一些數據,求對應的高斯分佈時,我們經常會算這些數據點的均值和方差然後帶入到高斯分佈的公式,其理論依據是優化NLL。
  • 深度學習做分類任務時所用的交叉熵損失(cross entropy loss),其本質也是MLE。

MAP - 最大後驗估計

MAP是貝葉斯學派常用的估計方法。

假設數據x1,x2,,xn 是i.i.d.(獨立同分布)的一組抽樣,X=(x1,x2,xn) 。那麼MAP對θ 的估計方法如下:

θ̂ MAP=argmaxP(θ|X)=argminlogP(θ|X)=argminlogP(X|θ)logP(θ)+logP(X)=argminlogP(X|θ)logP(θ)

其中,第二行到第三行用了貝葉斯定理,logP(X)θ 無關,所以丟棄。注意logP(X|θ) 其實就是NLL,所以MLE和MAP在優化時的不同就是在於先驗項logP(θ)

現在來看一下這個先驗項,假定先驗是一個高斯分佈,即

P(θ)=constant×eθ22σ2

那麼,
logP(θ)=constant+θ22σ2

至此,可以發現:在MAP中使用一個高斯分佈的先驗等價於在MLE中採用L2的正則項(regularization)

參考

頻率學派還是貝葉斯學派?聊一聊機器學習中的MLE和MAP
如有侵權,請告知,多謝。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章