1.2 Probability Theory 概率論（上）

今天開始學Pattern Recognition and Machine Learning (PRML)書，章節1.2，Probability Theory 概率論（上）

原創書寫，轉載請註明出處http://www.cnblogs.com/xbinworld/archive/2013/04/25/3041505.html

今天開始學Pattern Recognition and Machine Learning (PRML)書，章節1.2，Probability Theory （上）

這一節是濃縮了整本書關於概率論的精華，突出一個不確定性（uncertainty）的理解。我看的比較慢，是想要細扣一下，而且寫blog碼字也很慢，不過我想留下點痕跡所以會寫下去。前面幾節其實很重要，所以單獨一節甚至半節寫一個blog，後面如果一個章節在討論一個topic我可能就會一個章節一個blog，比如第九章講EM算法，我應該就用一個blog帶過。

(入門而已，高手一笑而過吧~。~)

對於書中的公式如果重要我都會推導一下，然後用黃色表示一下，以後的章節也是如此。如果大家也看PRML書建議也自己推幾個公式，加深理解。如果出現“注”，就是我自己加的描述。

首先從一個例子說起：有兩個盒子，一個紅色盒子裏面有2個蘋果（綠）+6個桔子（黃），一個藍色盒子裏面有3個蘋果+1個桔子，具體可以見圖1.9。隨機挑選一個盒子，然後從盒子裏隨機拿出一個水果，觀察是什麼後放回原處，重複這個過程很多次。

我們定義挑選紅色盒子的次數爲總次數的40%，挑選藍色盒子的次數爲60%。

在這個例子中，盒子的顏色是一個隨機變量，我們稱之爲B，它有兩個取值r（red）和b（blue）；水果也是一個隨機變量，稱之爲F，它的取值是a（apple）和o（orange）。

首先從頻次的角度理解概率，選擇紅/藍盒子的概率分別爲：

注：概率必須在[0，1]範圍內，且覆蓋所有可能的互斥事件的概率和爲1。

我們現在可以問類似這樣的問題：（1）一次挑選得到蘋果的概率是多少？（2）如果我們得到的是桔子，那麼這一次挑選的是紅盒子的概率是多少？

=============================================華麗的分割線==========================================================

在解決上述問題前我們先跳出這個例子，來考慮更一般的情況：見圖1.10

對兩個隨機變量的大量重複實驗，把得到（xi, yi）的結果次數記錄到n_ij中，圖中一列之和表示爲ci（表示所有出現xi的總次數），一行之和爲rj，爲出現yj的總次數。得到X=xi和Y=yi的聯合概率：

以及X=xi的邊緣概率：

還可以得到條件概率，給定xi得到yj的概率：

通過以上推導，我們可以得到下面的關係：

上面的（1.7）式子叫做加法規則sum rule，（1.9）叫做乘法規則product rule，是概率論中最基本的兩個規則了：

注：這兩個rule幾乎是最重要的方法了。

通過這兩個規則可以得到在機器學習中非常重要的貝葉斯理論：

其中P（X）可以對所有的Y展開：

可以理解爲normalization，使得（1.12）左邊的條件概率在所有的Y取值下，概率之和爲1。

=============================================華麗的分割線============================================================

好了，現在跳回到前面的兩個盒子的例子，（在下面的書寫中我們會強調一下隨機變量（大寫字母）以及它們的實例（小寫字母），後面可能就會寫的簡略一些）

這幾個概率表達式都是直接得到的，題目中給了，比如第三條：盒子爲紅色情況下，抽到水果爲蘋果的概率爲1/4。且滿足，即同一條件下所有可能性之和爲1。OK, 現在我們可以回答“抽到蘋果的概率”這個問題了:

即窮舉所有盒子的可能，以及每一種盒子下抽到蘋果的概率之和。對應的，抽到桔子的概率就是p(F=o) = 1- 11/20 = 9/20。

好，現在回答第二個問題：如果我們得到的是桔子，那麼這一次挑選的是紅盒子的概率是多少？

通過貝葉斯公式：

答案通過貝葉斯公式很容易得到，而我們所需的信息都可以從前面的基本信息中得到。在這個例子中，我們已經設計到很多概念，比如對盒子的選取有一個預估，也就是P(B)，我們稱之爲先驗概率，因爲它是在我們觀測抽取結果之前就已知了的（決定了的）；

然後我們的第二個問題，已知抽到是桔子的情況下求盒子紅色的概率，其實就是估計盒子爲紅色的後驗概率，因爲是在我們觀察到隨機變量F之後得到的估計。由此可見當我們有一定的觀察值的時候我們就不能從直觀的理解去判斷一個事件，比如先驗告訴我們說有60%的可能是選取藍盒子，但式子是（1.23）說明在有觀察o的情況下，紅盒子的概率有2/3，比藍盒子大多了。

還要介紹一下兩個隨機變量的邊緣分佈的乘積等於他們的聯合分佈，即p(X,Y) = p(X)P(Y)，那麼這兩個隨機變量相互獨立，也有p(Y|X) = p(Y)。

1.2.1 概率密度

前面介紹都是從離散變量的角度，我們需要重新考慮連續變量的概率定義。

如果一個實數連續變量，其落在區間的概率是，當時，那麼小p(x)就稱之爲x的概率密度。概率定義成：