TLDR (or the take away)
- 頻率學派 - Frequentist - Maximum Likelihood Estimation (MLE,最大似然估計)
- 貝葉斯學派 - Bayesian - Maximum A Posteriori (MAP,最大後驗估計)
兩大學派的爭論
抽象一點來講,頻率學派和貝葉斯學派對世界的認知有本質不同:頻率學派認爲世界是確定的,有一個本體,這個本體的真值是不變的,我們的目標就是要找到這個真值或真值所在的範圍;而貝葉斯學派認爲世界是不確定的,人們對世界先有一個預判,而後通過觀測數據對這個預判做調整,我們的目標是要找到最優的描述這個世界的概率分佈。
在對事物建模時,用 表示模型的參數,請注意,解決問題的本質就是求 。那麼:
- 頻率學派:存在唯一真值 。舉一個簡單直觀的例子–拋硬幣,我們用 來表示硬幣的bias。拋一枚硬幣100次,有20次正面朝上,要估計拋硬幣正面朝上的bias 。在頻率學派來看, = 20 / 100 = 0.2,很直觀。當數據量趨於無窮時,這種方法能給出精準的估計;然而缺乏數據時則可能產生嚴重的偏差。例如,對於一枚均勻硬幣,即 = 0.5,拋擲5次,出現5次正面 (這種情況出現的概率是1/2^5=3.125%),頻率學派會直接估計這枚硬幣 = 1,出現嚴重錯誤。
- 貝葉斯學派: 是一個隨機變量,符合一定的概率分佈。在貝葉斯學派裏有兩大輸入和一大輸出,輸入是先驗 (prior)和似然 (likelihood),輸出是後驗 (posterior)。先驗,即 ,指的是在沒有觀測到任何數據時對 的預先判斷,例如給我一個硬幣,一種可行的先驗是認爲這個硬幣有很大的概率是均勻的,有較小的概率是是不均勻的;似然,即 ,是假設 已知後我們觀察到的數據應該是什麼樣子的;後驗,即 ,是最終的參數分佈。貝葉斯估計的基礎是貝葉斯公式,如下:
同樣是拋硬幣的例子,對一枚均勻硬幣拋5次得到5次正面,如果先驗認爲大概率下這個硬幣是均勻的 (例如最大值取在0.5處的Beta分佈),那麼 ,即 ,是一個distribution,最大值會介於0.5~1之間,而不是武斷的= 1。
問題引入
已知一組數據集是獨立地從概率分佈上採樣生成的,且 具有確定的形式(如高斯分佈,二項分佈等)但參數未知。
問題:如何根據數據集 估計參數 ?
爲了解決上述問題,統計學界存在兩種不同的解決方案:
- 頻率學派:參數是一個客觀存在的固定值,其可以通過找到使數據集 出現可能性最大的值,對參數 進行估計,此便是極大似然估計的核心思想。
- 貝葉斯學派:參數 是一個隨機變量,服從一個概率分佈(換句話講,不是一個客觀存在的固定值,而是可以取很多不同值的變量,且具有相應的可能性),其首先根據主觀的經驗假定的概率分佈爲 (先驗分佈,往往並不準確),然後根據觀察到的新信息(數據集 )對其進行修正,此時的概率分佈爲 (後驗分佈)。
最大似然估計
核心思想:找到使數據集 出現可能性最大的值,對參數 進行估計,即。
最大後驗估計
原則上,貝葉斯學派對 的估計應該就是的後驗分佈,但是大多數時候後驗分佈的計算較爲棘手,因此此時出現一種折衷解法:找到使後驗概率最大的值,對參數 進行估計,即
根據上式可以發現,最大後驗估計與最大似然估計優化過程中的差異便是多了一項 ,相當於加了一項與 的先驗概率 有關的懲罰項。