- probabilistic & estimation:常用分佈,共軛特性,最大似然估計,最大後驗估計,指數族和自然參數
- statistic properties:輔助機器學習算法證明,包括重要的切比雪夫不等式和馬爾科夫不等式
1. 概率&估計-Probabilistic & Estimation
1.1 高斯分佈與高階矩
1-D高斯情況:
k-D高斯情況:
多元高斯函數的一階矩(Fisrt Order Moment)-期望:
多元高斯函數的二階矩(Second Order Moment) :
現在,改變軸使得向量x-μ特徵向量對齊:
1.2 一些重要的且常用的分佈
我們要研究的大多數分佈來源於指數族。指數族分佈可以用自然參數e進行表示:
- 實際上高斯分佈就是一種特殊的指數分佈,1-D高斯分佈證明如下。
- Gamma分佈與Inverse-Gamma分佈(x<0, pdf=0不予討論)
Gamma函數及其性質:
Gamma / Inverse-Gamma Distribution (a>0形狀參數,陡峭參數; b>0尺度參數,散佈情況):
Gamma分佈其實並不是很常用,但是它衍生出的卡方分佈、指數分佈、T分佈非常有用。
- Wishart分佈與Invert-Wishart分佈
- weight 分佈
k-D Dirichlet 分佈:
實際上k-D Dirichlet分佈就是Beta分佈在高維情形的推廣。在貝葉斯推斷中,Dirichlet分佈作爲多項分佈的共軛先驗得到應用,在machine learning中常被用於構建Dirichlet混合模型。
Beta分佈:
machine learning中, Beta分佈作爲貝努利分佈和二項分佈的共軛先驗分佈的密度函數,廣爲應用。
- Discrete分佈
k-D 多項分佈:
特例-二項分佈:
Bernouli分佈:
Poission分佈:
1.3 二項分佈Binomal與泊松分佈Poission之間的關係
也就是說,當二項分佈中的試驗次數n比較大,事件A在一次試驗中發生的概率p比較小時,二項分佈的一個事件發生次數的概率可以用泊松分佈的概率來模擬。
1.4 非指數族分佈
非指數族分佈通常可以利用兩個指數族分佈構建。例如較著名的Student-t分佈:
1.5 共軛-conjugacy
首先考慮後驗與先驗之間的關係:
如果p(θ|X)和p(θ)的概率密度同屬於一個分佈,那麼後驗概率將非常好求。例如,如果先驗以及似然函數服從高斯分佈,那麼後要也一定屬於高斯分佈。
在貝葉斯統計中,如果後驗分佈與先驗分佈屬於同類,則先驗分佈與後驗分佈被稱爲共軛分佈,而先驗分佈被稱爲似然函數的共軛先驗。假定似然函數p(X|θ)是已知的,問題就是我們選取什麼樣的先驗分佈p(θ),會讓後驗分佈與先驗分佈具有相同的數學形式。共軛先驗的好處主要在於代數上的方便性,可以直接給出後驗分佈的封閉形式,否則的話只能數值計算。共軛先驗也有助於獲得關於似然函數如何更新先驗分佈的直觀印象。
這裏需要特別補充的是所有指數家族的分佈都有共軛先驗。
1.6 最大似然估計 Maximum Likellihood Estimation
- 案例: 1-D 高斯
假定我們相信數據是服從高斯分佈的。很明顯藍色的高斯分佈曲線比綠色的高斯分佈曲線更合理。但是這裏我們需要用最大似然函數估計來解釋爲什麼。
爲了將乘法運算簡化成加法運算,這裏我們採用對數似然函數log-likelihood-function。上式轉化爲:
接下來分別對均值和方差分別求偏導等於0,就可以獲得最大似然對應的參數。
1.7 最大後驗 Maximum A Posterior-MAP
- 案例: 1-D 高斯
對於上面的問題,假設我們對μ有相同的先驗知識,也就是說μ也服從高斯分佈。那麼這一類的估計稱爲最大後驗MAP:
對於高斯情況,我們同樣可以採用求偏導等於零,獲取最大值對應的參數。