一、條件概率定義
假設A和B是樣本空間中的兩個集合,我們可以很清楚的明白P(A)和P(B)分別代表集合A與集合B的概率,以及是兩個集合交集的概率,即兩個事件同時發生的概率。但是注意,凡是形式爲P(x)的都是概率,背後本質是一個比值,那麼就會有分子與分母。所以,P(A)、P(B)、,的分子是對應集合的大小,而分母則是整個樣本空間的大小。所以我們就能夠分析得到,P(A|B)的分母不再是整個樣本空間的大小,而是某個子集的大小。通過變換分母來表達出“事件B發生的前提下事件A發生的概率”。
二、全概率定義
將樣本空間劃分爲n個子集{B1,B2,...,Bn},將一個樣本集合的求解轉換爲與其他樣本集合交集的和,換句話就是,對一複雜事件A的概率求解問題轉化爲了在不同情況或不同原因 Bn下發生的簡單事件的概率的求和問題。
三、貝葉斯公式定義
觀察公式,本質上就是一個條件概率公式,只是分母使用全概率公式來求。我們將公式變形,因爲我們要求的是在A前提下B的發生概率,我們可以將P(B)看作先驗概率,即先不考慮前提條件,而P(B|A)就是後驗概率,就是調整因子。那麼我們如何理解這個調整因子?這個調整因子看上去沒什麼邏輯在裏面,單純靠公式推導出來的(其實是我看不出來)。
四、貝葉斯過濾器
利用貝葉斯思想來過濾郵件這個經典問題相信每個人都爛熟於心,在下面我記錄一下,用最清楚的公式推導解釋清楚。
首先,S代表垃圾郵件,H代表正常郵件。初始時,垃圾郵件與正常郵件的比例各佔一半。
接着,我們統計出現過的單詞的和,這兩個參數是可以統計出來的,但當一個單詞在S或H中沒有出現時,我們將對應的P設置爲1%(小概率事件發生概率)。那麼當收到一封新的郵件時候,我們這樣使用貝葉斯來判斷這封郵件是不是垃圾郵件。當這封郵件中出現了單詞Wi時,根據這個單詞有以下推論。
這樣,單詞Wi能夠表示出這封郵件有的概率是垃圾郵件。但是,一封郵件不只有一個單詞,假設一封郵件中有n個單詞,那麼我們可以用同樣的思想計算出這是垃圾郵件的概率。
這樣就表示了,新郵件在出現單詞W1W2...Wn的前提下是垃圾郵件的概率。那麼我們如何解上式子?
首先補充一下獨立事件的定義。如果兩個事件相互獨立,那麼在一個事件一定發生的前提下,另一個事件發生的概率就等於自身的自然發生概率,即兩個事件分別存在於兩個不同的概率空間。
因爲n個單詞的出現是相互獨立的,所以就會有。
將之帶入式子中:
根據條件概率公式,我們有一下式子,同樣帶入:
上面就是根據新郵件中的單詞計算爲垃圾郵件的概率。我們還可以使用諸如下面的式子進行化簡,這裏不再贅述。
因爲S與H互斥,所以有: