簡介
對概率的詮釋有兩大學派,一種是頻率派另一種是貝葉斯派。爲了討論的方便,後面我們對觀測樣本數據集採用下面記號:
這個記號表示觀測集有 個樣本,每個樣本都是 維向量。其中每個觀測都是由 生成的。其中 是數據空間參數 (模型參數)。
頻率派的觀點
頻率派認爲 ( 或寫爲 ) 中的 是一個未知常量。對於 個觀測來說觀測集的概率爲 。爲了求 的大小,我們採用極大似然估計MLE方法,希望通過調整模型參數來使得模型能夠最大化樣本情況出現的概率,這樣的模型參數就是我們需要的:
例子:設隨機事件總體 ,即隨機事件 發生的概率爲 未知,現在重複試驗 次,得到結果 , 發生了 次,現在我們用MLE來估計 。由概率論知識我們知道,n次試驗出現1的次數 ,現在的實驗所得情況發生的概率如下:
既然發生我們就認爲它是最可能發生的,也就是上述概率要最大,現在用MLE方法來估計
求導不難得到極大值且是最大值點 ,即 。
貝葉斯派的觀點
貝葉斯派認爲 中的 是一個隨機變量。這個 滿足一個預設的先驗的分佈 (概率密度函數)。於是根據貝葉斯定理依賴觀測集參數的後驗可以寫成:
爲了根據觀測樣本數據求 的後驗分佈 ,我們要最大化這個參數後驗MAP:
其中第二個等號是由於分母計算後爲定值和 沒有關係。求解這個 值後計算 ,就得到了參數的後驗概率 。其中 是似然函數,是我們的模型分佈。得到了參數的後驗分佈後,我們可以將這個分佈用於做貝葉斯預測,即已知 後,求新來樣本 的概率, 是二者之間的一個橋樑:
例子:有一個硬幣,假設朝向正面的機率爲 ,朝向反面的機率爲 ,這個 是未知的,現在爲了估計 ,投擲了10次,其中有6次朝向正面。問再投擲兩次,都朝向正向的概率爲多少。
如果按照頻率派的觀點,很容易知道 ,再投擲兩次,假設是獨立過程,則:
而在貝葉斯派眼中,問題就沒那麼簡單了,貝葉斯派認爲參數 應該是一個隨機變量,服從一個先驗分佈。那麼我們就需要用觀測到的數據 來估計 的後驗分佈,對於後驗分佈的估計也是樣本越多越準確:
因爲在已觀測到的數據中, 是固定的,所以 是定值。其中似然函數:
設 服從的先驗分佈 (概率密度函數) 爲:
(貝塔分佈(Beta Distribution) 是一個作爲伯努利分佈和二項式分佈的共軛先驗分佈的密度函數,在機器學習和數理統計學中有重要應用。)
當 時就是(0,1)上的均勻分佈。於是:
爲了讓
需要配一個 的係數,最終 的後驗概率分佈爲:
假設再投擲的過程中不更新 ,則有 ,所以有:
對於給定的 會得到一個確定的概率。
頻率派和貝葉斯派對比
在對事物建模時,用 表示模型的參數,注意,解決問題的本質就是求 或其分佈。
抽象一點來講,頻率學派和貝葉斯學派對世界的認知有本質不同:
頻率學派認爲世界是確定的,我們的目標就是要找到這個確定的規則。對應到機器學習建模, 是確定的,當觀測樣本數據量趨於無窮時,這種方法能給出 精準的估計,然而缺乏數據時則可能產生嚴重的偏差。
貝葉斯學派認爲世界是不確定的,人們對世界先有一個預判,而後通過觀測數據對這個預判做調整,我們的目標是要找到最優的描述這個世界的概率分佈。對應到機器學習建模,我們在沒有觀測到任何數據時會對 有一個預先判斷,然後會不斷地根據觀測到的數據樣本來更新參數的後驗估計,以求更加精準刻畫模型。這種方法在先驗假設比較靠譜的情況下效果顯著,隨着數據量的增加,參數分佈會越來越向數據靠攏,先驗的影響力也會越來越小。特殊情況下,如果把先驗去掉或者先驗是uniform distribution,則貝葉斯方法等價於頻率方法。因爲直觀上來講,先驗是uniform distribution本質上表示對事物沒有任何預判。
參考文獻
B站機器學習白板推導
貝葉斯派理論例子
MAP高斯先驗等價於MLE的l2正則
頻率派和貝葉斯派的解釋
GithubMachineLearningNotes/tsyw