TLDR (or the take away)

頻率學派 - Frequentist - Maximum Likelihood Estimation (MLE，最大似然估計)
貝葉斯學派 - Bayesian - Maximum A Posteriori (MAP，最大後驗估計)

兩大學派的爭論

抽象一點來講，頻率學派和貝葉斯學派對世界的認知有本質不同：頻率學派認爲世界是確定的，有一個本體，這個本體的真值是不變的，我們的目標就是要找到這個真值或真值所在的範圍；而貝葉斯學派認爲世界是不確定的，人們對世界先有一個預判，而後通過觀測數據對這個預判做調整，我們的目標是要找到最優的描述這個世界的概率分佈。

在對事物建模時，用 $\theta$ 表示模型的參數，請注意，解決問題的本質就是求 $\theta$ 。那麼：

頻率學派：存在唯一真值 $\theta$ 。舉一個簡單直觀的例子–拋硬幣，我們用 $P(head)$ 來表示硬幣的bias。拋一枚硬幣100次，有20次正面朝上，要估計拋硬幣正面朝上的bias $P(head)$ 。在頻率學派來看， $\theta$ = 20 / 100 = 0.2，很直觀。當數據量趨於無窮時，這種方法能給出精準的估計；然而缺乏數據時則可能產生嚴重的偏差。例如，對於一枚均勻硬幣，即 $\theta$ = 0.5，拋擲5次，出現5次正面 (這種情況出現的概率是1/2^5=3.125%)，頻率學派會直接估計這枚硬幣 $\theta$ = 1，出現嚴重錯誤。
貝葉斯學派： $\theta$ 是一個隨機變量，符合一定的概率分佈。在貝葉斯學派裏有兩大輸入和一大輸出，輸入是先驗 (prior)和似然 (likelihood)，輸出是後驗 (posterior)。先驗，即 $P(\theta)$ ，指的是在沒有觀測到任何數據時對 $\theta$ 的預先判斷，例如給我一個硬幣，一種可行的先驗是認爲這個硬幣有很大的概率是均勻的，有較小的概率是是不均勻的；似然，即 $P(X|\theta)$ ，是假設 $\theta$ 已知後我們觀察到的數據應該是什麼樣子的；後驗，即 $P(\theta|X)$ ，是最終的參數分佈。貝葉斯估計的基礎是貝葉斯公式，如下：
$P(\theta|X) = \dfrac{P(X|\theta)P(\theta)}{P(X)}$
同樣是拋硬幣的例子，對一枚均勻硬幣拋5次得到5次正面，如果先驗認爲大概率下這個硬幣是均勻的 (例如最大值取在0.5處的Beta分佈)，那麼 $P(head)$ ，即 $P(\theta|X)$ ，是一個distribution，最大值會介於0.5~1之間，而不是武斷的 $\theta$ = 1。

問題引入

已知一組數據集 $D=\{x_1,x_2,...,x_n\}$ 是獨立地從概率分佈 $P(x)$ 上採樣生成的，且 $P(x)$ 具有確定的形式（如高斯分佈，二項分佈等）但參數 $\theta$ 未知。

問題：如何根據數據集 $D$ 估計參數 $\theta$ ?

爲了解決上述問題，統計學界存在兩種不同的解決方案：

頻率學派：參數 $\theta$ 是一個客觀存在的固定值，其可以通過找到使數據集 $D$ 出現可能性最大的值，對參數 $\theta$ 進行估計，此便是極大似然估計的核心思想。
貝葉斯學派：參數 $\theta$ 是一個隨機變量，服從一個概率分佈（換句話講， $\theta$ 不是一個客觀存在的固定值，而是可以取很多不同值的變量，且具有相應的可能性），其首先根據主觀的經驗假定 $\theta$ 的概率分佈爲 $P(\theta)$ （先驗分佈，往往並不準確），然後根據觀察到的新信息（數據集 $D$ ）對其進行修正，此時 $\theta$ 的概率分佈爲 $P(\theta|D)$ （後驗分佈）。

最大似然估計

核心思想：找到使數據集 $D$ 出現可能性最大的值，對參數 $\theta$ 進行估計，即 $\widehat {\theta }=argmax_{\theta }P(D|\theta)$ 。

最大後驗估計

原則上，貝葉斯學派對 $\theta$ 的估計應該就是 $\theta$ 的後驗分佈 $P(\theta|D)$ ，但是大多數時候後驗分佈的計算較爲棘手，因此此時出現一種折衷解法：找到使後驗概率最大的值，對參數 $P(\theta)$ 進行估計，即

根據上式可以發現，最大後驗估計與最大似然估計優化過程中的差異便是多了一項 $\log p\left( x\right)$ ，相當於加了一項與 $\theta$ 的先驗概率 $P(\theta)$ 有關的懲罰項。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

最大似然估計與最大後驗估計總結

TLDR (or the take away)

兩大學派的爭論

問題引入

最大似然估計

最大後驗估計

Python 潮流週刊#50：我最喜歡的 Python 3.13 新特性！

Spring關於AOP的學習總結

統計學習方法——K近鄰模型

最大似然估計與最大後驗估計總結

機器學習-感知機

SPA（單頁面應用）和MPA（多頁面應用）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結