1, 全概率公式:
2, 貝葉斯公式:
3,樸素貝葉斯分類器:
定義:
- 1,設 x= {a1, a2, a3…, am } 爲一個待分類項,而每個a爲x的一個特徵屬性。
- 2,有類別集合:C ={ y1, y2, y3 …, yn }
- 3,計算一個概率集合U : P(y1|x), P(y2|x), P(y3|x)…P(yn|x)
- 4,x最可能的類別 <==> 集合U中,概率的取最大值時,是類別集合C中的哪個?
樸素貝葉斯分類器是一個概率分類器。假設現有的類別C={c1,c2,……cm}。給定一篇文檔d,文檔d最有可能屬於哪個類呢?這個問題用數學公式表示如下:
由於每個概率值很小(比如0.0001)若干個很小的概率值直接相乘,
得到的結果會越來越小。爲了避免計算過程出現下溢(underflower),
引入對數函數Log, 最終得到: