2 概率分佈

引言

發現對概率論的基本概念理解不是很深入，導致看後面的東西時常有些莫名其妙的疑惑，回頭來看看概率論與統計

1. 累積分佈函數（CDF – Cumulative distribution function 或直接就叫 distribution function）

CDF其定義爲

FX(x)=P(X≤x)

正如統計學完全教程裏說的，這個CDF函數是很有迷惑性的，有必要仔細理解它。我以前每次看這個表達式都是一閃而過，沒有好好理解，而它的真正的意義應該是表示隨機變量小於或等於其某一個取值x的概率。設一個例子，拋一枚均勻的硬幣兩次，設隨機變量X表示出現正面的次數，那麼P(X=0)=P(X=2)=1/4，P(X=1)=1/2，所以這個函數的曲線如下圖：

對於這個圖，要想清楚清楚如下兩個問題：

1）爲什麼函數始終是右連續的？因爲根據CDF的表達式中的小於等於號，當X=x時，P(X=x)的那部分應該被加到FX上，因此在X=x處有一個值的躍升。如X=1時，P(X=1)已經是1/2了

2）爲什麼FX(1.4)=0.75？要注意P(1≤X<2)=1/2（雖然其實X只能取整數值），但是FX是值x之前所有概率的累加，所以FX(1.4)可不是1/2，而是3/4 !!

因此F函數始終是非降的，右連續的，且limx→∞F(x)=1

2. 概率密度函數（PDF – Probability density function）

對於離散隨機變量的PDF爲：

fX(x)=P(X=x)

對於連續隨機變量，若存在一個函數fX對所有x均滿足fX(x)≥0，∫bafX(x)dx=1，並且有

P(a<X<b)=∫bafX(x)dx

則fX就是FX(x)的PDF，並且FX(x)=∫x−∞fX(t)dt， fX(x)=ddxFX(x)

表面看起來這個定義簡單，但是要深入理解這些式子的含義，這個定義對後面整個機器學習的內容都是最基礎最重要的。

其實後面所謂的 density estimation（EM algorithm和Sampling Methods）都是要估計出一個PDF來。

最簡單的PDF就是比如翻硬幣的例子，假如翻正面概率0.4，反面0.6，則這個模型的PDF就是{0.4, 0.6}

稍微複雜點的PDF就是univariate Gaussian啦，其實也不復雜，高中就見過

3. 伯努利、二項分佈、多項分佈

伯努利分佈就是對單次拋硬幣的建模，X~Bernoulli(p)的PDF爲f(x)=px(1−p)1−x，隨機變量X只能取{0, 1}。對於所有的pdf，都要歸一化！而這裏對於伯努利分佈，已經天然歸一化了，因此歸一化參數就是1。

很多次拋硬幣的建模就是二項分佈了。注意二項分佈有兩個參數，n和p，要考慮拋的次數。

二項分佈的取值X一般是出現正面的次數，其PDF爲：

f(x)=P(X=x)=P(X=x|n,p)=Cxnpx(1−p)n−x

Cxn就是二項分佈pdf的歸一化參數。如果是beta分佈，把Cxn換成beta函數分之一即可，這樣可以從整數情況推廣爲實數情況。所以beta分佈是二項分佈的實數推廣！

多項分佈則更進一層，拋硬幣時X只能有兩種取值，當X有多種取值時，就應該用多項分佈建模。

這時參數p變成了一個向量p⃗ =(p1,…,pk)表示每一個取值被選中的概率，那麼X~Multinomial(n,p)的PDF爲：

f(x)=P(x1, …, xk|n,p⃗ )=(nx1, …, xk)px11…pxkk=n!∏ki=1xi!pxix

2.1.1 The beta distribution

如果忘記伯努利分佈和二項分佈是怎麼回事了，看這裏。

書中引出貝塔分佈的理由：P70提到，由於最大似然估計在觀察數據很少時，會出現嚴重over-fitting（比如估計拋硬幣正反面概率，只有3次拋硬幣觀察數據，且結果正好都是正面，則模型預測以後所有拋硬幣都將是正面）。爲了解決這個問題，可以考慮貝葉斯方法，即引入一個先驗知識（先驗分佈p(μ)）來控制參數μ，那麼如何挑選這個分佈呢？

根據：

postprior=likelihood∗prior

已經知道似然函數的形式，如果選擇的先驗分佈也與 μ 和 (1-μ) 兩者的乘方成比例，那麼後驗分佈的函數形式就會跟它的先驗函數形式一樣了。具體來說，選擇prior的形式是w1∗μa(1−μ)b，那麼postprior就會變成w2∗μm+a(1−μ)n+b這個樣子了(w1,w2爲pdf的歸一化參數)，所以postprior和prior具有相同的函數形式(都是μ和(1-μ)的次方的乘積)，這就是所謂的conjugacy。

最終這裏的先驗和後驗就都是貝塔分佈了，其中先驗的形式如下：

Beta(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa−1(1−μ)b−1 式2.13

其中Γ(a+b)Γ(a)Γ(b)這玩意就是w1，是爲了把整個分佈概率歸一化，從而使：

∫10Beta(μ|a,b)dμ=1 式2.14

在維基裏面，有這麼一個式子：

B(α,β)=Γ(α)Γ(β)Γ(α+β)≃(α−1α+β−2)

瞬間覺得世界清晰了，因爲Γ(n)=(n−1)!，所以其實當上式中α,β爲整數時，就是Cα−1α+β−2。因此，其實beta分佈就是二項分佈推廣成實數域上的情況而已！注意，這裏曾經把Beta函數寫反過，Beta function 是指B(x,y)=Γ(x)Γ(y)Γ(x+y)，而Beta distribution的pdf公式爲Beta(μ|a,b)=1B(a,b)μa−1(1−μ)b−1

從式2.14看出，Beta分佈就是一個μ的PDF(概率密度函數)(這個昨天(3@21)剛仔細看過哈)，μ本身是二項分佈的參數，而a，b由於2.14的歸一化過程可以被視作μ的控制參數，因此貝塔分佈的a和b就被稱作hyperparameters。下面的圖是Beta分佈的幾個例子，其中橫軸是μ取值範圍，縱軸是PDF取值，PDF的值可以大於1哦。

最後得到的postprior如下：

p(μ|m,l,a,b)∝μm+a−1(1−μ)l+b−1 式2.17，其中l=N-m

要把這個postprior歸一化其實可以參照式2.13，式2.17中的m+a等同於2.13中那個a，而l+b就是2.13中那個b，所以：

p(μ|m,l,a,b)=Γ(m+a+l+b)Γ(m+a)Γ(l+b)μm+a−1(1−μ)l+b−1

最後，如果我們已經有觀察數據D，要估計μ，即p(μ|D)，我們可以得到：

p(x=1|D)=m+am+a+l+b 式2.20

可以發現這個式子比最大似然估計的結果m/(m+l)多了a和b，也就是先驗知識的影響。

2.2 Multinomial Variables

Multinomial Variables說白了就是多種選擇選其一。比如隨機變量X有三種取值x1，x2，x3，那麼用一個三維向量表示Multinomial 的取值就是{1,0,0}，{0,1,0}，{0,0,1}分別代表選中x1，x2，x3，即必須選中一個，同時只能選一個這樣的意思。

如果用μk表示xk=1時的概率，那麼對於隨機變量x的取值的概率分佈可以表示爲：

p(x|μ)=∏k=1Kμxkk

其實這個式子的意思就是當K取值k的時候，只有xk是1，其他都是0，所以這個p(x|μ)的值就是μk的值而已，因爲一個數的0次方是1，所以對於其他xi（i≠k）的那部分μi全部都乘以了一個1而已。搞了這麼一個玄乎的式子，應該是爲了數學表示全面點，事實上直接理解就是p(x|μ) = μk。

上面所講的這些其實只是多項分佈的一次事件（或一次觀察），如果有N多次觀察，那麼就需要用多項分佈來描述了。就像伯努利分佈只是描述一次拋硬幣，而二項分佈是描述N次拋硬幣的一樣。

對於Multinomial 的極大似然估計其實可想而知，就是數數xk的個數然後取佔整個集合的比例作爲概率了。式(2.31)給了數學上的likelihood的式子，但是那個什麼拉格朗日乘子λ我已經沒啥概念了，只知道是用來求函數極值的，這裏記着點以後到高數裏去看。2012@4@4補充，大致看了一下拉格朗日乘數法，沒有想象中的複雜，就是用來求一個條件極值，在這裏。

Dirichlet分佈可以看做是分佈之上的分佈。如何理解這句話，我們可以先舉個例子：假設我們有一個骰子，其有六面，分別爲{1,2,3,4,5,6}。現在我們做了10000次投擲的實驗，得到的實驗結果是六面分別出現了{2000,2000,2000,2000,1000,1000}次，如果用每一面出現的次數與試驗總數的比值估計這個面出現的概率，則我們得到六面出現的概率，分別爲{0.2,0.2,0.2,0.2,0.1,0.1}。現在，我們還不滿足，我們想要做10000次試驗，每次試驗中我們都投擲骰子10000次。我們想知道，出現這樣的情況使得我們認爲，骰子六面出現概率爲{0.2,0.2,0.2,0.2,0.1,0.1}的概率是多少（說不定下次試驗統計得到的概率爲{0.1, 0.1, 0.2, 0.2, 0.2, 0.2}這樣了）。這樣我們就在思考骰子六面出現概率分佈這樣的分佈之上的分佈。而這樣一個分佈就是Dirichlet分佈。

首先用上面這一段來點直觀印象，然後列一些資料：

維基裏面對於狄利克雷分佈貌似介紹的挺複雜，不夠基礎。我找到了一個CMU的PPT：Dirichlet Distribution, Dirichlet Process and Dirichlet Process Mixture，找到一篇華盛頓大學的《Introduction to the Dirichlet Distribution and Related Processes》介紹。

發現CMU那個ppt裏面講到，Beta is the conjugate prior of Binomial，有一種原來如此的感覺。嗯，原來貝塔分佈是二項分佈的共軛先驗分佈，那麼狄利克雷分佈就是多項分佈的共軛先驗分佈。所以要看狄利克雷分佈，就要先了解多項分佈，然後呢，想要了解狄利克雷之於多元的關係，就要先看貝塔分佈和伯努利分佈的關係。所以，二項分佈、beta分佈、以及共軛這三點是理解狄利克雷分佈的關鍵基礎知識，這個基礎知識記錄在這裏(PRML2.1整小章介紹了這個)。

下面正式進入狄利克雷分佈介紹，首先說一下這個多項分佈的參數μ。在伯努利分佈裏，參數μ就是拋硬幣取某一面的概率，因爲伯努利分佈的狀態空間只有{0,1}。但是在多項分佈裏，因爲狀態空間有K個取值，因此μ變成了向量μ ⃗ =(μ1, …, μk)T。多項分佈的likelihood函數形式是∏ k=1Kμmkk，因此就像選擇伯努利分佈的共軛先驗貝塔函數時那樣，狄利克雷分佈的函數形式應該如下：

p(μ|α)∝∏k=1Kμαk−1k 式2.37

上式中，∑kμk=1，α⃗ =(α1, …, αk)T是狄利克雷分佈的參數。最後把2.37歸一化成爲真正的狄利克雷分佈：

Dir(μ|α)=Γ(α0)Γ(α1)…Γ(αk)∏k=1Kμαk−1k

其中α0=∑k=1Kαk。這個函數跟貝塔分佈有點像（取K=2時就是Beta分佈）。跟多項分佈也有點像。就像Beta分佈那樣，狄利克雷分佈就是它所對應的後驗多項分佈的參數μ ⃗ 的分佈，只不過μ是一個向量，下圖是當μ ⃗ =(μ1,μ2,μ3)時，即只有三個值時狄利克雷概率密度函數的例子。其中中間那個圖的三角形表示一個平放的Simplex，三角形三個頂點分別表示μ⃗ =(1,0,0)，μ⃗ =(0,1,0)和μ ⃗ =(0,0,1)，因此三角形中間部分的任意一個點就是μ⃗ 的一個取值，縱軸就是這個μ⃗ 的Simplex上的概率密度值(PDF)。

對於參數μ⃗ 的估計時，可知後驗=似然*先驗的函數形式如下：

p(μ|D,α)∝(D|μ)p(μ|α)∝∏k=1Kμαk+mk−1k

從這個形式可以看出，後驗也是狄利克雷分佈。類似於貝塔分佈歸一化後驗的方法，我們把這個後驗歸一化一下，得到：

p(μ|D,α)=Dir(μ|α+m)=Γ(α0+N)Γ(α1+m1)…Γ(αK+mK)∏k=1Kμαk+mk−1k

2.3 The Gaussian Distribution

1. preliminary (Matrix Algebra — Methods of Multivariate Analysis C H A P T E R 2)

加入一些其他內容，調整至http://www.xperseverance.net/blogs/2012/12/1579/

2.多元情況下的協方差

我覺得PRML上2.3中的多元高斯分佈爲啥讓人覺得虎，就是因爲相對於單元高斯分佈，多元情況下的方差令人迷惑和費解，所以本節只記錄《MMA》中第三章講述的多元協方差矩陣。

bivariate case：現在假設只在二維情況下討論問題，則每個隨機變量表示爲(xi,yi)T，則兩者的協方差：

σxy=E[(x−μx)(y−μy)] 在任何統計或概率書上都有定義。

同時相關係數：ρxy=corr(x,y)=σxyσxσy=E[(x−μx)(y−μy)]E(x−μx)2√E(y−μy)2√

對於兩個變量的相關性的理解可以用下面一個例子來描述：

設有二維隨機變量(x,y)，x表示升高，y表示體重，則憑經驗就可以想到，身高是和體重相關的，所以講這個隨機變量畫成二維點圖應該如下（點集中在兩個象限，展現出很高的相關性）：

而如果把x換成智力，y換成身高，那麼就會變成下面這個樣子（所有點四個象限都有，展現出無關性）：

3. 多元高斯分佈：

未完待續！

2.5 Nonparametric Methods

這章主要介紹兩種無參方法：核方法和近鄰法。

P122 開始介紹核密度估計時，從公式2.242到2.246都是爲了推導未知概率密度p(x)的估計。

最後推導得到式2.246如下：

p(x)=KNV

其中V是x附近區域R的體積，K則是落入x附近區域R中的數據點個數，由此導出了兩種不同的密度估計方法：

(1)如果固定K而估計V的大小，那麼就是kNN算法(k固定而根據選定最近的k個數據來評估R的體積)

(2)如果固定V而估計K的大小，那麼就是核密度估計，用一個核函數表示一個固定的體積V，然後數數這個體積裏面數據點K的個數

這就是對這兩種無參數方法比較深入的理解，很好。

關於核密度估計，雖然還不是很清楚，但是可以知道其實它的道理跟P121的histogram approach是一樣的，只不過核密度估計是高維的而已

1. 累積分佈函數（CDF – Cumulative distribution function 或直接就叫 distribution function）

2. 概率密度函數（PDF – Probability density function）

3. 伯努利、二項分佈、多項分佈

2.1.1 The beta distribution

2.2 Multinomial Variables

2.3 The Gaussian Distribution

2.5 Nonparametric Methods

對抗啓發式代碼仿真檢測技術分析收藏

探測U盤或移動硬盤收藏

My Root Kit Note

免殺跟過主動防禦收藏

通用Inline Hook代碼收藏

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結