2 概率分佈

引言

發現對概率論的基本概念理解不是很深入,導致看後面的東西時常有些莫名其妙的疑惑,回頭來看看概率論與統計

1. 累積分佈函數(CDF – Cumulative distribution function 或直接就叫 distribution function)

        CDF其定義爲

FX(x)=P(Xx)

        正如統計學完全教程裏說的,這個CDF函數是很有迷惑性的,有必要仔細理解它。我以前每次看這個表達式都是一閃而過,沒有好好理解,而它的真正的意義應該是表示隨機變量小於或等於其某一個取值x的概率。設一個例子,拋一枚均勻的硬幣兩次,設隨機變量X表示出現正面的次數,那麼P(X=0)=P(X=2)=1/4P(X=1)=1/2,所以這個函數的曲線如下圖:

        對於這個圖,要想清楚清楚如下兩個問題:

        1)爲什麼函數始終是右連續的? 因爲根據CDF的表達式中的小於等於號,當X=x時,P(X=x)的那部分應該被加到FX上,因此在X=x處有一個值的躍升。如X=1時,P(X=1)已經是1/2了

        2)爲什麼FX(1.4)=0.75?  要注意P(1X<2)=1/2(雖然其實X只能取整數值),但是FX是值x之前所有概率的累加,所以FX(1.4)可不是1/2,而是3/4 !!

因此F函數始終是非降的,右連續的,且limxF(x)=1

2. 概率密度函數(PDF – Probability density function

       對於離散隨機變量的PDF爲:

fX(x)=P(X=x)

       對於連續隨機變量,若存在一個函數fX對所有x均滿足fX(x)0bafX(x)dx=1,並且有

P(a<X<b)=bafX(x)dx

fX就是FX(x)的PDF,並且FX(x)=xfX(t)dt, fX(x)=ddxFX(x)

表面看起來這個定義簡單,但是要深入理解這些式子的含義,這個定義對後面整個機器學習的內容都是最基礎最重要的。

其實後面所謂的 density estimation(EM algorithm和Sampling Methods)都是要估計出一個PDF來。

最簡單的PDF就是比如翻硬幣的例子,假如翻正面概率0.4,反面0.6,則這個模型的PDF就是{0.4, 0.6}

稍微複雜點的PDF就是univariate Gaussian啦,其實也不復雜,高中就見過

3. 伯努利、二項分佈、多項分佈

伯努利分佈就是對單次拋硬幣的建模,X~Bernoulli(p)的PDF爲f(x)=px(1p)1x,隨機變量X只能取{0, 1}。對於所有的pdf,都要歸一化!而這裏對於伯努利分佈,已經天然歸一化了,因此歸一化參數就是1。

很多次拋硬幣的建模就是二項分佈了。注意二項分佈有兩個參數,n和p,要考慮拋的次數。

二項分佈的取值X一般是出現正面的次數,其PDF爲:

f(x)=P(X=x)=P(X=x|n,p)=Cxnpx(1p)nx

Cxn就是二項分佈pdf的歸一化參數。如果是beta分佈,把Cxn換成beta函數分之一即可,這樣可以從整數情況推廣爲實數情況。所以beta分佈是二項分佈的實數推廣!

多項分佈則更進一層,拋硬幣時X只能有兩種取值,當X有多種取值時,就應該用多項分佈建模。

這時參數p變成了一個向量p⃗ =(p1,,pk)表示每一個取值被選中的概率,那麼X~Multinomial(n,p)的PDF爲:

f(x)=P(x1, , xk|n,p⃗ )=(nx1, , xk)px11pxkk=n!ki=1xi!pxix

2.1.1 The beta distribution

    如果忘記伯努利分佈和二項分佈是怎麼回事了,看這裏

    書中引出貝塔分佈的理由:P70提到,由於最大似然估計在觀察數據很少時,會出現嚴重over-fitting(比如估計拋硬幣正反面概率,只有3次拋硬幣觀察數據,且結果正好都是正面,則模型預測以後所有拋硬幣都將是正面)。爲了解決這個問題,可以考慮貝葉斯方法,即引入一個先驗知識(先驗分佈p(μ))來控制參數μ,那麼如何挑選這個分佈呢?

根據:

postprior=likelihoodprior

已經知道似然函數的形式,如果選擇的先驗分佈也與 μ 和 (1-μ) 兩者的乘方成比例,那麼後驗分佈的函數形式就會跟它的先驗函數形式一樣了。具體來說,選擇prior的形式是w1μa(1μ)b,那麼postprior就會變成w2μm+a(1μ)n+b這個樣子了(w1,w2爲pdf的歸一化參數),所以postprior和prior具有相同的函數形式(都是μ和(1-μ)的次方的乘積),這就是所謂的conjugacy。

    最終這裏的先驗和後驗就都是貝塔分佈了,其中先驗的形式如下:

Beta(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa1(1μ)b1  式2.13

其中Γ(a+b)Γ(a)Γ(b)這玩意就是w1,是爲了把整個分佈概率歸一化,從而使:

10Beta(μ|a,b)dμ=1    式2.14

在維基裏面,有這麼一個式子:

B(α,β)=Γ(α)Γ(β)Γ(α+β)(α1α+β2)

瞬間覺得世界清晰了,因爲Γ(n)=(n1)!,所以其實當上式中α,β爲整數時,就是Cα1α+β2。因此,其實beta分佈就是二項分佈推廣成實數域上的情況而已!注意,這裏曾經把Beta函數寫反過,Beta function 是指B(x,y)=Γ(x)Γ(y)Γ(x+y),而Beta distribution的pdf公式爲Beta(μ|a,b)=1B(a,b)μa1(1μ)b1

從式2.14看出,Beta分佈就是一個μ的PDF(概率密度函數)(這個昨天(3@21)剛仔細看過哈),μ本身是二項分佈的參數,而a,b由於2.14的歸一化過程可以被視作μ的控制參數,因此貝塔分佈的a和b就被稱作hyperparameters。下面的圖是Beta分佈的幾個例子,其中橫軸是μ取值範圍,縱軸是PDF取值,PDF的值可以大於1哦。

最後得到的postprior如下:

p(μ|m,l,a,b)μm+a1(1μ)l+b1  式2.17,其中l=N-m

要把這個postprior歸一化其實可以參照式2.13,式2.17中的m+a等同於2.13中那個a,而l+b就是2.13中那個b,所以:

p(μ|m,l,a,b)=Γ(m+a+l+b)Γ(m+a)Γ(l+b)μm+a1(1μ)l+b1

最後,如果我們已經有觀察數據D,要估計μ,即p(μ|D),我們可以得到:

p(x=1|D)=m+am+a+l+b  式2.20

可以發現這個式子比最大似然估計的結果m/(m+l)多了a和b,也就是先驗知識的影響。

2.2 Multinomial Variables

        Multinomial Variables說白了就是多種選擇選其一。比如隨機變量X有三種取值x1,x2,x3,那麼用一個三維向量表示Multinomial 的取值就是{1,0,0},{0,1,0},{0,0,1}分別代表選中x1,x2,x3,即必須選中一個,同時只能選一個這樣的意思。

如果用μk表示xk=1時的概率,那麼對於隨機變量x的取值的概率分佈可以表示爲:

p(x|μ)=k=1Kμxkk

        其實這個式子的意思就是當K取值k的時候,只有xk是1,其他都是0,所以這個p(x|μ)的值就是μk的值而已,因爲一個數的0次方是1,所以對於其他xi(i≠k)的那部分μi全部都乘以了一個1而已。搞了這麼一個玄乎的式子,應該是爲了數學表示全面點,事實上直接理解就是p(x|μ) = μk。

       上面所講的這些其實只是多項分佈的一次事件(或一次觀察),如果有N多次觀察,那麼就需要用多項分佈來描述了。就像伯努利分佈只是描述一次拋硬幣,而二項分佈是描述N次拋硬幣的一樣。

        對於Multinomial 的極大似然估計其實可想而知,就是數數xk的個數然後取佔整個集合的比例作爲概率了。式(2.31)給了數學上的likelihood的式子,但是那個什麼拉格朗日乘子λ我已經沒啥概念了,只知道是用來求函數極值的,這裏記着點以後到高數裏去看2012@4@4補充,大致看了一下拉格朗日乘數法,沒有想象中的複雜,就是用來求一個條件極值,在這裏

       Dirichlet分佈可以看做是分佈之上的分佈。如何理解這句話,我們可以先舉個例子:假設我們有一個骰子,其有六面,分別爲{1,2,3,4,5,6}。現在我們做了10000次投擲的實驗,得到的實驗結果是六面分別出現了{2000,2000,2000,2000,1000,1000}次,如果用每一面出現的次數與試驗總數的比值估計這個面出現的概率,則我們得到六面出現的概率,分別爲{0.2,0.2,0.2,0.2,0.1,0.1}。現在,我們還不滿足,我們想要做10000次試驗,每次試驗中我們都投擲骰子10000次。我們想知道,出現這樣的情況使得我們認爲,骰子六面出現概率爲{0.2,0.2,0.2,0.2,0.1,0.1}的概率是多少(說不定下次試驗統計得到的概率爲{0.1, 0.1, 0.2, 0.2, 0.2, 0.2}這樣了)。這樣我們就在思考骰子六面出現概率分佈這樣的分佈之上的分佈。而這樣一個分佈就是Dirichlet分佈。

首先用上面這一段來點直觀印象,然後列一些資料:

          維基裏面對於狄利克雷分佈貌似介紹的挺複雜,不夠基礎。我找到了一個CMU的PPT:Dirichlet Distribution, Dirichlet Process and Dirichlet Process Mixture,找到一篇華盛頓大學的《Introduction to the Dirichlet Distribution and Related Processes》介紹。

       發現CMU那個ppt裏面講到,Beta is the conjugate prior of Binomial,有一種原來如此的感覺。嗯,原來貝塔分佈是二項分佈的共軛先驗分佈,那麼狄利克雷分佈就是多項分佈的共軛先驗分佈。所以要看狄利克雷分佈,就要先了解多項分佈,然後呢,想要了解狄利克雷之於多元的關係,就要先看貝塔分佈和伯努利分佈的關係。所以,二項分佈、beta分佈、以及共軛這三點是理解狄利克雷分佈的關鍵基礎知識,這個基礎知識記錄在這裏(PRML2.1整小章介紹了這個)。

       下面正式進入狄利克雷分佈介紹,首先說一下這個多項分佈的參數μ。在伯努利分佈裏,參數μ就是拋硬幣取某一面的概率,因爲伯努利分佈的狀態空間只有{0,1}。但是在多項分佈裏,因爲狀態空間有K個取值,因此μ變成了向量μ ⃗ =(μ1, , μk)T。多項分佈的likelihood函數形式是∏   k=1Kμmkk,因此就像選擇伯努利分佈的共軛先驗貝塔函數時那樣,狄利克雷分佈的函數形式應該如下:

p(μ|α)k=1Kμαk1k  式2.37

上式中,kμk=1α⃗ =(α1, , αk)T是狄利克雷分佈的參數。最後把2.37歸一化成爲真正的狄利克雷分佈:

Dir(μ|α)=Γ(α0)Γ(α1)Γ(αk)k=1Kμαk1k

其中α0=k=1Kαk。這個函數跟貝塔分佈有點像(取K=2時就是Beta分佈)。跟多項分佈也有點像。就像Beta分佈那樣,狄利克雷分佈就是它所對應的後驗多項分佈的參數μ ⃗ 的分佈,只不過μ是一個向量,下圖是當μ ⃗           =(μ1,μ2,μ3)時,即只有三個值時狄利克雷概率密度函數的例子。其中中間那個圖的三角形表示一個平放的Simplex,三角形三個頂點分別表示μ⃗ =(1,0,0)μ⃗ =(0,1,0)μ ⃗ =(0,0,1),因此三角形中間部分的任意一個點就是μ⃗ 的一個取值,縱軸就是這個μ⃗ 的Simplex上的概率密度值(PDF)。

對於參數μ⃗ 的估計時,可知 後驗=似然*先驗 的函數形式如下:

p(μ|D,α)(D|μ)p(μ|α)k=1Kμαk+mk1k

從這個形式可以看出,後驗也是狄利克雷分佈。類似於貝塔分佈歸一化後驗的方法,我們把這個後驗歸一化一下,得到:

p(μ|D,α)=Dir(μ|α+m)=Γ(α0+N)Γ(α1+m1)Γ(αK+mK)k=1Kμαk+mk1k


2.3 The Gaussian Distribution

       

1. preliminary (Matrix Algebra — Methods of Multivariate Analysis C H A P T E R 2)

加入一些其他內容,調整至http://www.xperseverance.net/blogs/2012/12/1579/

2.多元情況下的協方差

我覺得PRML上2.3中的多元高斯分佈爲啥讓人覺得虎,就是因爲相對於單元高斯分佈,多元情況下的方差令人迷惑和費解,所以本節只記錄《MMA》中第三章講述的多元協方差矩陣。

bivariate case:現在假設只在二維情況下討論問題,則每個隨機變量表示爲(xi,yi)T,則兩者的協方差:

σxy=E[(xμx)(yμy)] 在任何統計或概率書上都有定義。

同時相關係數:ρxy=corr(x,y)=σxyσxσy=E[(xμx)(yμy)]E(xμx)2E(yμy)2

對於兩個變量的相關性的理解可以用下面一個例子來描述:

設有二維隨機變量(x,y),x表示升高,y表示體重,則憑經驗就可以想到,身高是和體重相關的,所以講這個隨機變量畫成二維點圖應該如下(點集中在兩個象限,展現出很高的相關性):

而如果把x換成智力,y換成身高,那麼就會變成下面這個樣子(所有點四個象限都有,展現出無關性):

3. 多元高斯分佈

未完待續!

2.5 Nonparametric Methods

      這章主要介紹兩種無參方法:核方法和近鄰法。

       P122 開始介紹核密度估計時,從公式2.242到2.246都是爲了推導未知概率密度p(x)的估計。

      最後推導得到式2.246如下:

p(x)=KNV

      其中V是x附近區域R的體積,K則是落入x附近區域R中的數據點個數,由此導出了兩種不同的密度估計方法:

      (1)如果固定K而估計V的大小,那麼就是kNN算法(k固定而根據選定最近的k個數據來評估R的體積)

      (2)如果固定V而估計K的大小,那麼就是核密度估計,用一個核函數表示一個固定的體積V,然後數數這個體積裏面數據點K的個數

     這就是對這兩種無參數方法比較深入的理解,很好。

      關於核密度估計,雖然還不是很清楚,但是可以知道其實它的道理跟P121的histogram approach是一樣的,只不過核密度估計是高維的而已

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章