1.2 Probability Theory 概率論(上)

今天開始學Pattern Recognition and Machine Learning (PRML)書,章節1.2,Probability Theory 概率論(上)

原創書寫,轉載請註明出處http://www.cnblogs.com/xbinworld/archive/2013/04/25/3041505.html 

 

今天開始學Pattern Recognition and Machine Learning (PRML)書,章節1.2,Probability Theory (上)

 

這一節是濃縮了整本書關於概率論的精華,突出一個不確定性(uncertainty)的理解。我看的比較慢,是想要細扣一下,而且寫blog碼字也很慢,不過我想留下點痕跡所以會寫下去。前面幾節其實很重要,所以單獨一節甚至半節寫一個blog,後面如果一個章節在討論一個topic我可能就會一個章節一個blog,比如第九章講EM算法,我應該就用一個blog帶過。

(入門而已,高手一笑而過吧~。~)

對於書中的公式如果重要我都會推導一下,然後用黃色表示一下,以後的章節也是如此。如果大家也看PRML書建議也自己推幾個公式,加深理解。如果出現“注”,就是我自己加的描述。

 

首先從一個例子說起:有兩個盒子,一個紅色盒子裏面有2個蘋果(綠)+6個桔子(黃),一個藍色盒子裏面有3個蘋果+1個桔子,具體可以見圖1.9。隨機挑選一個盒子,然後從盒子裏隨機拿出一個水果,觀察是什麼後放回原處,重複這個過程很多次。

我們定義挑選紅色盒子的次數爲總次數的40%,挑選藍色盒子的次數爲60%。

clip_image002

在這個例子中,盒子的顏色是一個隨機變量,我們稱之爲B,它有兩個取值r(red)和b(blue);水果也是一個隨機變量,稱之爲F,它的取值是a(apple)和o(orange)。

首先從頻次的角度理解概率,選擇紅/藍盒子的概率分別爲:

clip_image004

注:概率必須在[0,1]範圍內,且覆蓋所有可能的互斥事件的概率和爲1。

 

我們現在可以問類似這樣的問題:(1)一次挑選得到蘋果的概率是多少?(2)如果我們得到的是桔子,那麼這一次挑選的是紅盒子的概率是多少?

 

 

=============================================華麗的分割線==========================================================

在解決上述問題前我們先跳出這個例子,來考慮更一般的情況:見圖1.10

clip_image006

 

對兩個隨機變量的大量重複實驗,把得到(xi, yi)的結果次數記錄到n_ij中,圖中一列之和表示爲ci(表示所有出現xi的總次數),一行之和爲rj,爲出現yj的總次數。得到X=xi和Y=yi的聯合概率

clip_image008

 

以及X=xi的邊緣概率:

clip_image010

clip_image012

 

還可以得到條件概率,給定xi得到yj的概率

clip_image014

通過以上推導,我們可以得到下面的關係:

clip_image016

 

上面的(1.7)式子叫做加法規則sum rule,(1.9)叫做乘法規則product rule, 是概率論中最基本的兩個規則了:

clip_image018

注:這兩個rule幾乎是最重要的方法了。

通過這兩個規則可以得到在機器學習中非常重要的貝葉斯理論:

clip_image020

其中P(X)可以對所有的Y展開:

clip_image022

可以理解爲normalization,使得(1.12)左邊的條件概率在所有的Y取值下,概率之和爲1。

 

=============================================華麗的分割線============================================================

 

 

好了,現在跳回到前面的兩個盒子的例子,(在下面的書寫中我們會強調一下隨機變量(大寫字母)以及它們的實例(小寫字母),後面可能就會寫的簡略一些)

clip_image024

clip_image026

這幾個概率表達式都是直接得到的,題目中給了,比如第三條:盒子爲紅色情況下,抽到水果爲蘋果的概率爲1/4。 且滿足clip_image028,即同一條件下所有可能性之和爲1。OK, 現在我們可以回答“抽到蘋果的概率”這個問題了:

clip_image030

即窮舉所有盒子的可能,以及每一種盒子下抽到蘋果的概率之和。對應的,抽到桔子的概率就是p(F=o) = 1- 11/20 = 9/20。

好,現在回答第二個問題:如果我們得到的是桔子,那麼這一次挑選的是紅盒子的概率是多少?

通過貝葉斯公式:

clip_image032

答案通過貝葉斯公式很容易得到,而我們所需的信息都可以從前面的基本信息中得到。在這個例子中,我們已經設計到很多概念,比如對盒子的選取有一個預估,也就是P(B),我們稱之爲先驗概率,因爲它是在我們觀測抽取結果之前就已知了的(決定了的);

然後我們的第二個問題,已知抽到是桔子的情況下求盒子紅色的概率,其實就是估計盒子爲紅色的後驗概率,因爲是在我們觀察到隨機變量F之後得到的估計。由此可見當我們有一定的觀察值的時候我們就不能從直觀的理解去判斷一個事件,比如先驗告訴我們說有60%的可能是選取藍盒子,但式子是(1.23)說明在有觀察o的情況下,紅盒子的概率有2/3,比藍盒子大多了。

還要介紹一下兩個隨機變量的邊緣分佈的乘積等於他們的聯合分佈,即p(X,Y) = p(X)P(Y),那麼這兩個隨機變量相互獨立,也有p(Y|X) = p(Y)。

 

 

1.2.1 概率密度

前面介紹都是從離散變量的角度,我們需要重新考慮連續變量的概率定義。

如果一個實數連續變量,其落在區間clip_image034的概率是clip_image036,當clip_image038時,那麼小p(x)就稱之爲x的概率密度。概率定義成:

clip_image040

注:這裏都用小p來表示容易混淆,前面的p是代表概率,後面p(x)是概率密度。

(連續變量就沒有x爲某一具體值的概率定義了,因爲有無窮的取值,都是說落在一個區段內的概率)

累計分佈函數(cumulative distribution)的定義是x處在區間clip_image042的概率:

clip_image044

滿足P’(x) = p(x)。在圖1.12中我們繪製了概率密度小p和累計分佈函數大P,綠色的面積是落在小區間內的概率。

clip_image046

前面討論過的sum rule 和product rule在連續變量情況下也適用:

 

clip_image048

 

 

 

1.2.2 期望和方差

期望:一個函數f(x) 在一個概率分佈p(x)下的平均取值就是f(x)的期望,定義爲:

clip_image050

對於離散情況而言,期望就是一個所有可能值的加權和。對於連續變量就用對應的積分形式:

clip_image052

注:這裏兩個小p有不同,上面在離散情況下已經是理解成概率了,而下面(1.34)中小p是概率密度。

對期望的一種直觀估計是所有觀察點的平均:

clip_image054

當N趨於無窮大時,取等號。這樣的平均值我們是經常用到的。

如果f有多個變量,我們一般會用下標來表示是針對哪一個變量的分佈(變化)考慮的,比如

clip_image056

就是說f的關於變量x的期望,事實上,上式是一個以y爲變量的函數。類似的,我們也可用定義條件期望:

clip_image058

方差:方差可以估計一個函數f在他的期望附近變化的劇烈程度,定義爲

clip_image060

如果考慮變量x本身,也可用x的方差:

clip_image062

注:(書裏跳過了)這個等式實際上是從方差的定義推導出來的:

clip_image002

 

另外,對於兩個隨機變量我們定義協方差:

clip_image066

表示x,y一起變化的程度,如果x和y相互獨立,那麼協方差爲0。可以看到單個變量的方差是協方差的特殊情況,x=y。

如果x和y表示的是兩個向量(vector)變量,x和y是列向量,那麼協方差是一個矩陣:

clip_image068

 

好了,期望和方差介紹到這裏,這兩個概念幾乎貫穿機器學習的所有領域。今天先記錄這一些吧,章節1.2確實很重要,這裏只是上半部分,下半部分過幾天整理了再放出吧。

 

吐槽一下,寫了這麼幾頁就花了2小時+(動作太慢?),主要是語句都是經過梳理的,雖然公式和圖表都是copy的,但是依然要花不少時間,記下來我自己加深下印象也是有好處。

1.2的下半部分包括了貝葉斯定理和高斯分佈的介紹,非常重要。基本上章節1.2組成了概率統計學習的基礎內容,建議初學者好好理解下。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章