統計特性和概率估計-1 (數學推導與證明)

  • probabilistic & estimation:常用分佈,共軛特性,最大似然估計,最大後驗估計,指數族和自然參數
  • statistic properties:輔助機器學習算法證明,包括重要的切比雪夫不等式和馬爾科夫不等式

1. 概率&估計-Probabilistic & Estimation

1.1 高斯分佈與高階矩

1-D高斯情況:

k-D高斯情況:

多元高斯函數的一階矩(Fisrt Order Moment)-期望

多元高斯函數的二階矩(Second Order Moment)

現在,改變軸使得向量x-μ特徵向量對齊:

1.2 一些重要的且常用的分佈

我們要研究的大多數分佈來源於指數族。指數族分佈可以用自然參數e進行表示:

  • 實際上高斯分佈就是一種特殊的指數分佈,1-D高斯分佈證明如下。

  • Gamma分佈與Inverse-Gamma分佈(x<0, pdf=0不予討論)

Gamma函數及其性質:

Gamma / Inverse-Gamma Distribution (a>0形狀參數,陡峭參數; b>0尺度參數,散佈情況)

Gamma分佈其實並不是很常用,但是它衍生出的卡方分佈、指數分佈、T分佈非常有用

  • Wishart分佈與Invert-Wishart分佈

  • weight 分佈

k-D Dirichlet 分佈:

實際上k-D Dirichlet分佈就是Beta分佈在高維情形的推廣。在貝葉斯推斷中,Dirichlet分佈作爲多項分佈的共軛先驗得到應用,在machine learning中常被用於構建Dirichlet混合模型。

Beta分佈:

machine learning中, Beta分佈作爲貝努利分佈和二項分佈的共軛先驗分佈的密度函數,廣爲應用。

  • Discrete分佈

k-D 多項分佈:

特例-二項分佈:

Bernouli分佈:

Poission分佈:

1.3 二項分佈Binomal與泊松分佈Poission之間的關係

也就是說,當二項分佈中的試驗次數n比較大,事件A在一次試驗中發生的概率p比較小時,二項分佈的一個事件發生次數的概率可以用泊松分佈的概率來模擬。

1.4 非指數族分佈

非指數族分佈通常可以利用兩個指數族分佈構建。例如較著名的Student-t分佈:

1.5 共軛-conjugacy

首先考慮後驗與先驗之間的關係:

如果p(θ|X)和p(θ)的概率密度同屬於一個分佈,那麼後驗概率將非常好求。例如,如果先驗以及似然函數服從高斯分佈,那麼後要也一定屬於高斯分佈。

在貝葉斯統計中,如果後驗分佈與先驗分佈屬於同類,則先驗分佈與後驗分佈被稱爲共軛分佈,而先驗分佈被稱爲似然函數的共軛先驗。假定似然函數p(X|θ)是已知的,問題就是我們選取什麼樣的先驗分佈p(θ),會讓後驗分佈與先驗分佈具有相同的數學形式。共軛先驗的好處主要在於代數上的方便性,可以直接給出後驗分佈的封閉形式,否則的話只能數值計算。共軛先驗也有助於獲得關於似然函數如何更新先驗分佈的直觀印象。

這裏需要特別補充的是所有指數家族的分佈都有共軛先驗

1.6 最大似然估計 Maximum Likellihood Estimation

  • 案例: 1-D 高斯

假定我們相信數據是服從高斯分佈的。很明顯藍色的高斯分佈曲線比綠色的高斯分佈曲線更合理。但是這裏我們需要用最大似然函數估計來解釋爲什麼。

爲了將乘法運算簡化成加法運算,這裏我們採用對數似然函數log-likelihood-function。上式轉化爲:

接下來分別對均值和方差分別求偏導等於0,就可以獲得最大似然對應的參數。

1.7 最大後驗 Maximum A Posterior-MAP

  • 案例: 1-D 高斯

對於上面的問題,假設我們對μ有相同的先驗知識,也就是說μ也服從高斯分佈。那麼這一類的估計稱爲最大後驗MAP:

對於高斯情況,我們同樣可以採用求偏導等於零,獲取最大值對應的參數。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章