一、貝葉斯定理
條件概率是指事件A在另外一個事件B已經發生條件下的發生概率,其基本求解公式爲: P(A|B) = P(AB) / P(B)
貝葉斯公式:
其中:
P(A)是A的先驗概率或邊緣概率。之所以稱爲"先驗"是因爲它不考慮任何B方面的因素。
P(B)是B的先驗概率或邊緣概率。
P(A|B)是已知B發生後A的條件概率,也由於得自B的取值而被稱作A的後驗概率。
P(B|A)是已知A發生後B的條件概率,也由於得自A的取值而被稱作B的後驗概率。
在實際應用中,P(A),P(B),P(A|B)都可以提前獲得。
貝葉斯公式實際提供了一種已知事件A確實發生了,估計它是由“原因”B所導致概率的方法
二、簡介
假設使用貝葉斯算法對文本進行分類,首先需要建立一個含有所有詞彙的詞彙表。假定詞彙表中有1000個單詞,要得到好的概率分佈,就需要足夠的數據樣本,假定樣本數爲N。那麼對於包含1000個特徵的詞彙表,將需要N1000個樣本。可見,所需要的樣本數會隨着特徵數目增大而迅速增長
如果特徵之間相互獨立,那麼樣本數就可以從N1000減少到1000×N。所謂獨立,指的是統計意義上的獨立,即一個特徵或單詞出現的可能性與它和其他單詞相鄰沒有關係。
例如,假設單詞bacon出現在unhealthy後面與出現在delicious後面的概率相同。
這個假設就是樸素貝葉斯算法中,樸素一詞的含義。
三、基本原理
常見三種實現模型
多項式模型;
高斯模型;
伯努利模型