機器學習---樸素貝葉斯

一、貝葉斯定理

條件概率是指事件A在另外一個事件B已經發生條件下的發生概率,其基本求解公式爲: P(A|B) = P(AB) / P(B)

貝葉斯公式:

其中:

        P(A)A的先驗概率或邊緣概率。之所以稱爲"先驗"是因爲它不考慮任何B方面的因素。

        P(B)B的先驗概率或邊緣概率。

        P(A|B)是已知B發生後A的條件概率,也由於得自B的取值而被稱作A的後驗概率。

        P(B|A)是已知A發生後B的條件概率,也由於得自A的取值而被稱作B的後驗概率。

        在實際應用中,P(A),P(B),P(A|B)都可以提前獲得。

        貝葉斯公式實際提供了一種已知事件A確實發生了,估計它是由“原因”B所導致概率的方法 

二、簡介

        假設使用貝葉斯算法對文本進行分類,首先需要建立一個含有所有詞彙的詞彙表。假定詞彙表中有1000個單詞,要得到好的概率分佈,就需要足夠的數據樣本,假定樣本數爲N。那麼對於包含1000個特徵的詞彙表,將需要N1000個樣本。可見,所需要的樣本數會隨着特徵數目增大而迅速增長

        如果特徵之間相互獨立,那麼樣本數就可以從N1000減少到1000×N。所謂獨立,指的是統計意義上的獨立,即一個特徵或單詞出現的可能性與它和其他單詞相鄰沒有關係。

        例如,假設單詞bacon出現在unhealthy後面與出現在delicious後面的概率相同。

        這個假設就是樸素貝葉斯算法中,樸素一詞的含義。

三、基本原理

常見三種實現模型

多項式模型;

高斯模型;

伯努利模型

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章