概率論基礎、樸素貝葉斯、貝葉斯統計、MLE及貝葉斯網絡

趁着這幾天在複習數據挖掘,裏面牽扯到了一些概率論裏面的基礎常識,我就簡單介紹下有關的基礎知識吧!
概率論是一門研究隨機現象數量規律的學科,個體選擇是有各種各樣的原因,微觀層面難以準確判斷,但從宏觀層面,羣體角度會涌現出一定的規律,並且這個規律在一定時期內保持不變,概率是幫助我們找到這樣規律的一種數學方法。

一. 基本概念

1. 決定性現象和不確定現象

決定性現象包括必然事件和不可能事件;必然事件是指在一定條件下,必然會發生的事情;而不可能事件是指在一定條件下,必然不會發生的事件。
而現實世界中還存在着大量的非決定性現象,比如同一個儀器多次稱量同一個物體的重量,所得結果總是略有差異。這種不確定現象也稱爲隨機現象。

2. 隨機實驗

正如前面所講,個體選擇有各種各樣的原因,但如果重複多次實驗,羣體角度來講會涌現出一定的規律,所以我們引入了隨機實驗,即在相同條件下重複進行某項實驗,企圖從中發現某種規律。隨機試驗的結果是未知的,它的所有可能結果的集合構成樣本空間,試驗的每一個可能結果稱爲樣本點,即爲 S={e}S=\left\{ e \right\}

3. 隨機事件

試驗E的樣本空間S的子集稱爲試驗的隨機事件,簡稱事件,在每次試驗中,當且僅當這一子集中的一個樣本點出現時,稱這一事件發生。
事件的運算滿足交換律、結合律、分配律和德-摩根定律:
在這裏插入圖片描述
舉個例子,在1-2000的整數中隨機地取一個數,問取到的整數即不能被6整除又不能被8整除的概率是多少?

解:設事件A代表1-2000的整數中可以被6整除的概率,事件B代表1-2000的整數中可以被8整數的概率,那麼即不能被6整數又不能被8整除的事件就是 AˉBˉ\bar{A}\bar{B} ,即能被6整除又能被8整除的事件就是AB,於是有:
P(AˉBˉ)=P(ABˉ)=1P(AB)=1{P(A)+P(B)P(AB)}P(\bar{A}\bar{B})=P(\bar{A\cup B})=1-P(A\cup B)=1-\left \{ P(A)+P(B)-P(AB) \right \}
333<20006<334,20008=250,83<200024<84,P(A)=3332000,P(B)=2502000,P(AB)=832000又 333<\frac{2000}{6}<334,\frac{2000}{8}=250,83<\frac{2000}{24}<84,故有: P(A)=\frac{333}{2000},P(B)=\frac{250}{2000},P(AB)=\frac{83}{2000}

P(AˉBˉ)=1(3332000+2502000832000)=34P(\bar{A}\bar{B})=1-(\frac{333}{2000}+\frac{250}{2000}-\frac{83}{2000})=\frac{3}{4}

4. 概率與頻率

對於一個隨機事件A(除必然事件和不可能事件外 )來說,它在一次試驗中可能發生,也可能不發生,我們希望知道的是事件在一次試驗中發生的可能性,於是我們用一個數 P(A)來表示該事件發生的可能性大小,這個數 P(A) 就稱爲隨機事件A的概率。那麼概率如何計算呢?

這就要引入頻率的概念了,在相同的條件下,進行了n次試驗,在這n次試驗中,事件A發生的次數 nAn_{A}稱爲事件A發生的頻數。比值 nA/nn_{A}/n稱爲事件A發生的頻率,並記爲 fn(A)f_{n}(A)
頻數穩定性:大量試驗證實,當重複實驗次數逐漸增大時,頻率呈現出穩定性,逐漸穩定於某個常數,即當n足夠大時, fn(A)P(A)f_{n}(A)\approx P(A) ,即只要試驗次數足夠多,我們就可以用頻率來估計概率值。

5. 條件概率

設A、B是兩個事件,且 P(A)>0P(A)>0 ,稱 P(BA)=P(AB)P(A)P(B|A)=\frac{P(AB)}{P(A)} 爲在事件A發生的條件下事件B發生的條件概率。

那麼現在我們來考慮一個問題,假設有n個條件 A1A2...AnA_{1}A_{2}...A_{n} 推出事件B,如何計算 P(BA1A2...An)P(B|A_{1}A_{2}...A_{n}) ?

乘法定理:設 P(A)>0P(A)>0 ,則有 P(AB)=P(BA)P(A)P(AB)=P(B|A)P(A) ,這個式子就是乘法公式,它可以由上面條件概率的公式直接推得。同理,如果有 P(B)>0P(B)>0 ,則有 P(AB)=P(AB)P(B)P(AB)=P(A|B)P(B) ,可以將乘法定理推廣到任意n個事件之交的場合:設 A1,A2,...,AnA_{1},A_{2},...,A_{n} 爲n個事件, n2n\geq 2P(A1A2...An1)>0P(A_{1}A_{2}...A_{n-1})>0 ,則有 P(A1A2...An)=P(AnA1A2...An1)P(An1A1A2...An2)...P(A2A1)P(A1)P(A_{1}A_{2}...A_{n})=P(A_{n}|A_{1}A_{2}...A_{n-1})P(A_{n-1}|A_{1}A_{2}...A_{n-2})...P(A_{2}|A_{1})P(A_{1})

條件概率 P(AB)P(A|B) 與積事件概率 P(AB)P(AB) 的關係: P(AB)P(AB)是在樣本空間S內事件AB發生的概率,而 P(AB)P(A|B)是在試驗E增加了新條件B發生後的縮減樣本空間 SBS_{B} 中計算事件A的概率。雖然都是A、B同時發生,但是兩者是不相同的,有 P(AB)=P(BA)P(A)P(AB)=P(B|A)P(A) ,僅當 P(S)=P(B)=1P(S)=P(B)=1 時兩者相等。

6. 全概率公式

全概率公式是概率論中的一個重要公式,應用全概率公式的關鍵是建立樣本空間的正確劃分(即構造一個正確的完備事件組),然後計算各個概率和條件概率,最後代入全概率公式。它是求複雜事件概率的有力工具。
樣本空間的劃分定義:設S爲試驗E的樣本空間, B1,B2,...,BnB_{1},B_{2},...,B_{n} 爲E的一組事件。若滿足(1) BiBj=,ij,i,j=1,2,...,nB_{i}B_{j}=\varnothing ,i\ne j,i,j=1,2,...,n;(2)B1B2...Bn=SB_{1}\cup B_{2} \cup ... \cup B_{n}=S ,則稱 B1,B2,...,BnB_{1},B_{2},...,B_{n} 爲樣本空間S的一組劃分。

全概率公式:設試驗E的樣本空間爲S,A爲E的事件, B1,B2,...,BnB_{1},B_{2},...,B_{n}爲樣本空間S的一組劃分,且 P(Bi)>0(i=1,2,...,n)P(B_{i})>0(i=1,2,...,n) ,則 P(A)=P(AB1)P(B1)+P(AB2)P(B2)+...+P(ABn)P(Bn)P(A)=P(A|B_{1})P(B_{1})+P(A|B_{2})P(B_{2})+...+P(A|B_{n})P(B_{n}) .

舉個例子放鬆一下哈哈,考卷中一道選擇題有4個答案,僅有一個是正確的,設一個學生知道正確答案或不知道而亂猜是等可能的。如果這個學生答對了,求他確實知道正確答案的概率?

解:我們將樣本空間劃分爲事件A-知道正確答案, Aˉ\bar{A} -不知道正確答案。以B表示學生答對題目,則 AB,P(AB)=P(A)=1/2A\subset B,P(AB)=P(A)=1/2P(BA)=1P(B|A)=1,而P(BAˉ)=1/4P(B|\bar{A})=1/4 。由全概率公式有:
P(B)=P(BA)P(A)+P(BAˉ)P(Aˉ)=1/2+1/4×1/2=5/8P(B)=P(B|A)P(A)+P(B|\bar{A})P(\bar{A})=1/2+1/4\times 1/2=5/8
P(AB)=P(AB)/P(B)=1/2×8/5=4/5P(A|B)=P(AB)/P(B)=1/2\times 8/5=4/5

二. 貝葉斯分類

1. 貝葉斯公式

貝葉斯公式是由乘法定理演變而來的,在上面的乘法定理中我們說到 P(AB)=P(BA)P(A)P(AB)=P(B|A)P(A) ,同時又有 P(AB)=P(AB)P(B)P(AB)=P(A|B)P(B) ,從而有 P(BA)P(A)=P(AB)P(B)P(B|A)P(A)=P(A|B)P(B) ,這就是傳說中的貝葉斯公式的基本型。
那麼貝葉斯公式有什麼用呢?答案是可以根據現象找出背後的原因,考慮這樣一個問題,一個小區在過去的10年裏一共發生了200次被盜,小區的保安有一條狗,狗平均每週晚上叫3次,在盜賊入侵時狗叫的概率爲0.9,現在要求在狗叫的時候發生入侵的概率是多少?
我們用事件A表示盜賊入侵的概率,即爲P(A);事件B表示狗叫的概率,即爲P(B);現在要求P(A|B),直接求不好求,但是如果我們用貝葉斯公式將這個問題轉換一下不就變爲 P(AB)=P(BA)P(A)/P(B)P(A|B)=P(B|A)P(A)/P(B) ,而P(BA)P(A)P(B)P(B|A)、P(A)、P(B)的概率是已知的。
我們對上面貝葉斯公式的基本型推廣一下,得到真正意義上的貝葉斯公式:
設試驗E的樣本空間爲S,A爲E的事件,B1,B2,...,BnB_{1},B_{2},...,B_{n} 爲S的一組劃分,且 P(A)>0,P(Bi)>0(i=1,2,...,n)P(A)>0,P(B_{i})>0(i=1,2,...,n) ,則:
P(BiA)=P(ABi)P(Bi)P(A)=P(ABi)P(Bi)j=1nP(ABj)P(Bj)P(B_{i}|A)=\frac{P(A|B_{i})P(B_{i})}{P(A)}=\frac{P(A|B_{i})P(B_{i})}{\sum_{j=1}^{n}P(A|B_{j})P(B_{j})}

再來做個題,某汽車廠的某個零件有甲乙丙三家供貨商,配額分別爲10%、25%和65%。已知甲乙丙三家零件的不合格率分別爲30%、20%和10%。現從倉庫中的某批零件中隨機抽取一件,經檢驗該零件不合格,則這個零件來自甲乙丙的可能性各是多少?

解:用E表示“抽出的零件是不合格品”, H1,H2,H3H_{1},H_{2},H_{3} 分別表示這個零件來自甲、乙、丙的概率;則 P(H1)=0.1,P(H2)=0.25,P(H3)=0.65P(H_{1})=0.1,P(H_{2})=0.25,P(H_{3})=0.65, P(EH1)=0.3,P(EH2)=0.2,P(EH3)=0.1P(E|H_{1})=0.3,P(E|H_{2})=0.2,P(E|H_{3})=0.1,於是 P(E)=P(EH1)P(H1)+P(EH2)P(H2)+P(EH3)P(H3)=0.145P(E)=P(E|H_{1})P(H_{1})+P(E|H_{2})P(H_{2})+P(E|H_{3})P(H_{3})=0.145
P(H1E)=P(EH1)P(H1)/P(E)=0.1×0.3/0.145=0.207P(H_{1}|E)=P(E|H_{1})P(H_{1})/P(E)=0.1\times 0.3/0.145=0.207
P(H2E)=P(EH2)P(H2)/P(E)=0.2×0.25/0.145=0.345P(H_{2}|E)=P(E|H_{2})P(H_{2})/P(E)=0.2\times 0.25/0.145=0.345
P(H3E)=P(EH3)P(H3)/P(E)=0.1×0.65/0.145=0.448P(H_{3}|E)=P(E|H_{3})P(H_{3})/P(E)=0.1\times 0.65/0.145=0.448

2. 貝葉斯決策

貝葉斯決策理論:在不完全情報下,對部分未知的狀態用主觀概率估計,然後用貝葉斯公式對發生的概率進行修正,最後再利用期望值和修正概率做出最優決策。
說人話就是:(1)已知類條件概率密度參數表達式和先驗概率;(2)利用貝葉斯公式轉換爲後驗概率;(3)根據後驗概率大小進行決策。

看一個醫療診斷的例子,C={健康,感冒,過敏}, f1=,f2=,f3=f1=,f2=,f3=f_{1}=打噴嚏,f_{2}=咳嗽,f_{3}=發燒f_{1}=打噴嚏,f_{2}=咳嗽,f_{3}=發燒
在這裏插入圖片描述

現在我們已知小李症狀爲{打噴嚏,咳嗽,不發燒},問小李是健康、感冒還是過敏?
解:設 C1C2C3C_{1}、C_{2}、C_{3} 分別表示小李是健康、感冒和過敏這三個事件;
現在要求的是 P(C1f1f2f3ˉ)=P(f1f2f3ˉC1)P(C1)P(f1f2f3ˉ)P(C_{1}|f_{1}f_{2}\bar{f_{3}})=\frac{P(f_{1}f_{2}\bar{f_{3}}|C_{1})P(C_{1})}{P(f_{1}f_{2}\bar{f_{3}})}P(C2f1f2f3ˉ)=P(f1f2f3ˉC2)P(C2)P(f1f2f3ˉ)P(C_{2}|f_{1}f_{2}\bar{f_{3}})=\frac{P(f_{1}f_{2}\bar{f_{3}}|C_{2})P(C_{2})}{P(f_{1}f_{2}\bar{f_{3}})}P(C3f1f2f3ˉ)=P(f1f2f3ˉC3)P(C3)P(f1f2f3ˉ)P(C_{3}|f_{1}f_{2}\bar{f_{3}})=\frac{P(f_{1}f_{2}\bar{f_{3}}|C_{3})P(C_{3})}{P(f_{1}f_{2}\bar{f_{3}})}
P(f1f2f3ˉC1)P(C1)=0.1×0.1×(10.01)×0.9=0.0089P(f_{1}f_{2}\bar{f_{3}}|C_{1})P(C_{1})=0.1\times 0.1\times (1-0.01)\times 0.9=0.0089(默認了特徵之間相互獨立,下同)
P(f1f2f3ˉC2)P(C2)=0.9×0.8×(10.7)×0.05=0.01P(f_{1}f_{2}\bar{f_{3}}|C_{2})P(C_{2})=0.9\times 0.8\times (1-0.7)\times 0.05=0.01
P(f1f2f3ˉC3)P(C3)=0.9×0.7×(10.4)×0.05=0.019P(f_{1}f_{2}\bar{f_{3}}|C_{3})P(C_{3})=0.9\times 0.7\times (1-0.4)\times 0.05=0.019
P(f1f2f3ˉ)=P(f1f2f3ˉC1)P(C1)+P(f1f2f3ˉC2)P(C2)+P(f1f2f3ˉC3)P(C3)=0.0379P(f_{1}f_{2}\bar{f_{3}})=P(f_{1}f_{2}\bar{f_{3}}|C_{1})P(C_{1})+P(f_{1}f_{2}\bar{f_{3}}|C_{2})P(C_{2})+P(f_{1}f_{2}\bar{f_{3}}|C_{3})P(C_{3})=0.0379
P(C1f1f2f3ˉ)=0.0089/0.0379=0.23P(C_{1}|f_{1}f_{2}\bar{f_{3}})=0.0089/0.0379=0.23 ; P(C2f1f2f3ˉ)=0.01/0.0379=0.26P(C_{2}|f_{1}f_{2}\bar{f_{3}})=0.01/0.0379=0.26 ;
P(C3f1f2f3ˉ)=0.019/0.0379=0.50P(C_{3}|f_{1}f_{2}\bar{f_{3}})=0.019/0.0379=0.50 ,很明顯過敏可能性最大。

貝葉斯決策使用條件:
(1)樣本的數量(容量)不充分大,因而大子樣統計理論不適宜的場合;
(2)試驗具有繼承性,反映在統計學上就是要具有在試驗之前已有的先驗信息的場合;
(3)要決策分類的條件劃分數是一定的;
(4)各種條件的概率分佈是已知的,即先驗概率 P(Di)P(D_{i}) 以及各類概率密度函數 P(xDi)P(x|D_{i}) 是已知的。顯然 0P(Di)10\leq P(D_{i})\leq 1PDi=1\sum P_{D_{i}}=1 .

我們細細體會一下,貝葉斯公式到底起到什麼作用了?實質上就是一個“由果尋因”的過程。我們已知若干類別和決定類別的各種因素組合的概率,現在要根據某一中因素組合求它屬於哪個類別?這不就是個分類問題嘛!!!!

3. 貝葉斯分類

獨立的類別變量C有若干類別,條件依賴於若干特徵變量 F1,F2,...,FnF_{1},F_{2},...,F_{n} 。通過貝葉斯公式計算類別C的概率:
P(CF1F2...Fn)=P(F1F2...FnC)P(C)P(F1F2...Fn)P(C|F_{1}F_{2}...F_{n})=\frac{P(F_{1}F_{2}...F_{n}|C)P(C)}{P(F_{1}F_{2}...F_{n})}
這裏地方計算的時候有問題,當特徵變量的數目n或者每個特徵能取大量值時,基於概率模型求解變得很不現實,即如何求解 P(F1F2...FnC)P(C)P(F_{1}F_{2}...F_{n}|C)P(C)
在這裏插入圖片描述
當n比較大, P(FiC,F1,F2,...,Fi1)P(F_{i}|C,F_{1},F_{2},...,F_{i-1}) 很難計算,但 P(FiC)P(F_{i}|C) 容易很多,那麼什麼情況下 P(FiC,F1,F2,...,Fi1)P(F_{i}|C,F_{1},F_{2},...,F_{i-1}) 等於 P(FiC)P(F_{i}|C) 相等呢?

奧卡姆剃刀原理——“如無必要,無增實體”,我們知道當特徵 FiFjF_{i}和F_{j}不相關時 P(FiC,Fj)=P(FiC)P(F_{i}|C,F_{j})=P(F_{i}|C) ,現在我們做一個重要假設:當特徵變量 F1F2...FnF_{1}F_{2}...F_{n}不相關時,類別變量C發生的概率可以變換爲:
在這裏插入圖片描述

4. 樸素貝葉斯分類

P(CF1,...,Fn)=1ZP(C)i=1mP(FiC)P(C|F_{1},...,F_{n})=\frac{1}{Z}P(C)\prod_{i=1}^{m}P(F_{i}|C)
其中 Z=P(F1,F2,...,Fn)Z=P(F_{1},F_{2},...,F_{n}) 稱爲證據因子,當特徵變量的值已知時是一個常數,P(C)P(C)是類先驗概率, P(FiC)P(F_{i}|C) 是獨立分佈概率。
樸素貝葉斯算法具體介紹在我的另一篇文章裏,感興趣的可以看一下:
https://blog.csdn.net/h__ang/article/details/83783119

貝葉斯分類儘管有條件獨立性這個非常強的假定,但是在實際應用中卻表現出很好的性能。即使所處理的數據的屬性之間不存在條件獨立性時,樸素貝葉斯方法在大多數情況下仍然可以實現正確分類,它的抗干擾性能好,魯棒性高。

三. 貝葉斯網絡(Bayesian network)

貝葉斯網絡,又稱信任網絡(belief network)或是有向非循環圖形模型(directed acyclic graphical model),是一種概率圖型模型,藉由有向非循環圖形中得知一組隨機變量 {X1,X2,...,Xn}\left\{ X_{1},X_{2},...,X_{n} \right\}及其n組條件機率分配(conditional probability distributions,or CPDs)的性質。
網絡的三大要素:
–結點表示隨機變量;
–邊表示因果關係;
–節點的條件機率表

下面來一個簡單的計算實例:
在這裏插入圖片描述
將X、Y、Z、W向量的節點都畫出來,則網絡如下:
在這裏插入圖片描述
P(y1x1)=0.9;P(y_{1}|x_{1})=0.9 ;

P(z1x1)=P(z1y1,x1)P(y1x1)+P(z1y2,x1)P(y2x1)=P(z1y1)P(y1x1)+P(z1y2)P(y2x1)=0.7×0.9+0.4×0.1=0.67P(z_{1}|x_{1})=P(z_{1}|y_{1},x_{1})P(y_{1}|x_{1})+P(z_{1}|y_{2},x_{1})P(y_{2}|x_{1}) =P(z_{1}|y_{1})P(y_{1}|x_{1})+P(z_{1}|y_{2})P(y_{2}|x_{1}) =0.7\times 0.9+0.4\times 0.1=0.67

P(z2x1)=1P(z1x1)=0.33P(z2x1)=P(w1z1)P(z1x1)+P(w1z2)P(z2x1)=0.50.67+0.60.33=0.533P(z_{2}|x_{1})=1-P(z_{1}|x_{1})=0.33P(z_{2}|x_{1})=P(w_{1}|z_{1})P(z_{1}|x_{1})+P(w_{1}|z_{2})P(z_{2}|x_{1}) =0.5*0.67+0.6*0.33=0.533

P(y1)=P(y1x1)P(x1)+P(y1x2)P(x2)=0.84P(y_{1})=P(y_{1}|x_{1})P(x_{1})+P(y_{1}|x_{2})P(x_{2})=0.84
P(y2)=1P(y1)=0.16P(y_{2})=1-P(y_{1})=0.16
P(z1)=P(z1y1)P(y1)+P(z1y2)P(y2)=0.652P(z_{1})=P(z_{1}|y_{1})P(y_{1})+P(z_{1}|y_{2})P(y_{2})=0.652
P(z2)=1P(z1)=0.348P(z_{2})=1-P(z_{1})=0.348
P(w1)=P(w1z1)P(z1)+P(w1z2)P(z2)=0.5348P(w_{1})=P(w_{1}|z_{1})P(z_{1})+P(w_{1}|z_{2})P(z_{2})=0.5348
P(x1w1)=P(w1x1)P(x1)Pw1=0.5330.4/0.5348=0.3987P(x_{1}|w_{1})=\frac{P(w_{1}|x_{1})P(x_{1})}{P_{w_{1}}}=0.533*0.4/0.5348=0.3987

貝葉斯網絡與樸素貝葉斯:
樸素貝葉斯可以看成是一個簡單的貝葉斯網絡:
在這裏插入圖片描述
寫在最後,比較重要的是我想談談貝葉斯統計(MAP)和極大似然估計(MLE)的區別與聯繫,但是我在知乎上搜了下這方面的介紹挺多的,我就在這裏推薦幾個吧!
關於對貝葉斯統計的相關介紹可以參考我之前寫的這篇文章的第一小節:
https://blog.csdn.net/h__ang/article/details/83870064

關於極大似然估計的相關理解可以參加微調的這篇回答,個人感覺很強!!:
https://www.zhihu.com/question/24124998/answer/707507256

關於極大似然估計和貝葉斯統計的區別其實我上面那篇文章已經點出來了,如果還是不太理解,更直觀的理解在這裏:
https://blog.csdn.net/u011508640/article/details/72815981

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章