統計特性和概率估計-1 (數學推導與證明)

原創

2019-02-08 19:02

probabilistic & estimation：常用分佈，共軛特性，最大似然估計，最大後驗估計，指數族和自然參數
statistic properties：輔助機器學習算法證明，包括重要的切比雪夫不等式和馬爾科夫不等式

1. 概率&估計-Probabilistic & Estimation

1.1 高斯分佈與高階矩

1-D高斯情況：

k-D高斯情況：

多元高斯函數的一階矩(Fisrt Order Moment)-期望：

多元高斯函數的二階矩(Second Order Moment) ：

現在，改變軸使得向量x-μ特徵向量對齊：

1.2 一些重要的且常用的分佈

我們要研究的大多數分佈來源於指數族。指數族分佈可以用自然參數e進行表示：

實際上高斯分佈就是一種特殊的指數分佈，1-D高斯分佈證明如下。

Gamma分佈與Inverse-Gamma分佈(x<0, pdf=0不予討論)

Gamma函數及其性質：

Gamma / Inverse-Gamma Distribution (a>0形狀參數，陡峭參數； b>0尺度參數，散佈情況):

Gamma分佈其實並不是很常用，但是它衍生出的卡方分佈、指數分佈、T分佈非常有用。

Wishart分佈與Invert-Wishart分佈

weight 分佈

k-D Dirichlet 分佈：

實際上k-D Dirichlet分佈就是Beta分佈在高維情形的推廣。在貝葉斯推斷中，Dirichlet分佈作爲多項分佈的共軛先驗得到應用，在machine learning中常被用於構建Dirichlet混合模型。

Beta分佈：

machine learning中， Beta分佈作爲貝努利分佈和二項分佈的共軛先驗分佈的密度函數，廣爲應用。

Discrete分佈

k-D 多項分佈：

特例-二項分佈：

Bernouli分佈：

Poission分佈：

1.3 二項分佈Binomal與泊松分佈Poission之間的關係

也就是說，當二項分佈中的試驗次數n比較大，事件A在一次試驗中發生的概率p比較小時，二項分佈的一個事件發生次數的概率可以用泊松分佈的概率來模擬。

1.4 非指數族分佈

非指數族分佈通常可以利用兩個指數族分佈構建。例如較著名的Student-t分佈：

1.5 共軛-conjugacy

首先考慮後驗與先驗之間的關係：

如果p(θ|X)和p(θ)的概率密度同屬於一個分佈，那麼後驗概率將非常好求。例如，如果先驗以及似然函數服從高斯分佈，那麼後要也一定屬於高斯分佈。

在貝葉斯統計中，如果後驗分佈與先驗分佈屬於同類，則先驗分佈與後驗分佈被稱爲共軛分佈，而先驗分佈被稱爲似然函數的共軛先驗。假定似然函數p(X|θ)是已知的，問題就是我們選取什麼樣的先驗分佈p(θ)，會讓後驗分佈與先驗分佈具有相同的數學形式。共軛先驗的好處主要在於代數上的方便性，可以直接給出後驗分佈的封閉形式，否則的話只能數值計算。共軛先驗也有助於獲得關於似然函數如何更新先驗分佈的直觀印象。

這裏需要特別補充的是所有指數家族的分佈都有共軛先驗。

1.6 最大似然估計 Maximum Likellihood Estimation

案例： 1-D 高斯

假定我們相信數據是服從高斯分佈的。很明顯藍色的高斯分佈曲線比綠色的高斯分佈曲線更合理。但是這裏我們需要用最大似然函數估計來解釋爲什麼。

爲了將乘法運算簡化成加法運算，這裏我們採用對數似然函數log-likelihood-function。上式轉化爲：

接下來分別對均值和方差分別求偏導等於0，就可以獲得最大似然對應的參數。

1.7 最大後驗 Maximum A Posterior-MAP

案例： 1-D 高斯

對於上面的問題，假設我們對μ有相同的先驗知識，也就是說μ也服從高斯分佈。那麼這一類的估計稱爲最大後驗MAP：

對於高斯情況，我們同樣可以採用求偏導等於零，獲取最大值對應的參數。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

最新文章

最新評論文章