機器學習 - 樸素貝葉斯法

原創

2020-02-20 14:34

博客內容源於《統計機器學習》一書的閱讀筆記。Python的源碼實現源於《機器學習實戰》部分內容。

首先，需要回顧下面的三個重要的公式：

條件概率：
$P (A | B) = P ( A B ) P ( B )$

全概率公式:
$P (A) = \sum i P (A | B i) P (B i)$

貝葉斯(Bayes)公式:
$P (B i | A) = P ( A | B i ) P ( B i ) \sum i P ( A | B i ) P ( B i )$

1. 樸素貝葉斯法的學習

樸素貝葉斯（naive bayes）法是基於貝葉斯定理與條件獨立假設的分類方法。樸素貝葉斯基於兩個重要的假設建立的：

1. 一個特徵出現的概率與其他特徵（條件）獨立；(特徵獨立性)
2. 每個特徵同等重要。(特徵均衡性)

【算法描述】
設輸入空間X⊆Rn 爲n 維向量的集合，輸出空間爲類標記集合Y={c1,c2,...,ck} 。輸入爲特徵向量x∈X , 輸出爲標記y∈Y 。X 是定義在輸入空間X 上的隨機向量，Y 是定義在輸出空間Y 上的隨機向量。P(X,Y) 是X,Y 的聯合概率分佈。訓練數據集

T = {(x 1, y 1), (x 2, y 2), . . ., (x N, y N)}

由

P(X,Y) 獨立同分布產生。
樸素貝葉斯法通過訓練數據集學習聯合概率分佈

P(X,Y)。先驗概率分佈：

P (Y = c k), k = 1, 2, . . ., K

條件概率分佈：

P (X = x | Y = c k) = P (X (1) = x (1), . . ., X n = x n | Y = c k), k = 1, 2, . . ., k

於是學習到聯合概率分佈

P(X,Y) 。

【分類】
樸素貝葉斯法分類時，對給定的輸入x ，通過學習到的模型計算後驗概率分佈P(Y=ck|X=x) ，將後驗概率最大的類作爲x類的輸出。後驗概率計算根據貝葉斯定理進行：

P (Y = c k | X = x) = P ( X = x | Y = c k ) P ( Y = c k ) \sum i P ( X = x | Y = c k ) P ( Y = c k )

由於前面已經假設了特徵獨立，所以有：

P (X = x | Y = c k) = P (X (1) = x (1), . . ., X (n) = x (n) | Y = c k) = \prod j = 1 n P (X (j) = x (j) | Y = c k)

將上式帶入到

P(Y=ck|X=x) 中，得到(樸素貝葉斯的基本公式)：

P (Y = c k | X = x) = P ( Y = c k ) \prod n j = 1 P ( X ( j ) = x ( j ) | Y = c k ) \sum i P ( Y = c k ) \prod n j = 1 P ( X ( j ) = x ( j ) | Y = c k ) k = 1, 2, . . ., K

那麼，樸素貝葉斯分類器就可以表示爲：

y = f (x) = arg max c k P (Y = c k | X = x) = arg max c k P ( Y = c k ) \prod n j = 1 P ( X ( j ) = x ( j ) | Y = c k ) \sum i P ( Y = c k ) \prod n j = 1 P ( X ( j ) = x ( j ) | Y = c k ) k = 1, 2, . . ., K

由於上述表示中的分母對於所有的

ck 都是相同的，所以可以略去分母，表示成：

arg max c k P (Y = c k) \prod j = 1 n P (X (j) = x (j) | Y = c k) k = 1, 2, . . ., K

先驗概率 ( Prior probability)
先驗概率是在缺乏某個事實的情況下描述一個變量; 而後驗概率是在考慮了一個事實之後的條件概率. 先驗概率通常是經驗豐富的專家的純主觀的估計.

後驗概率 ( posterior probability)
後驗概率是指通過調查或其它方式獲取新的附加信息，利用貝葉斯公式對先驗概率進行修正，而後得到的概率。

2. 樸素貝葉斯法使用流程

計算先驗概率和條件概率
$P (Y = c k) = \sum N i = 1 I ( y i = c k ) N, k = 1, 2, . . ., K . P (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) i , y i = c k ) \sum N i = 1 I ( y i = c k ) j = 1, 2, . . ., n; l = 1, 2, . . ., S j; k = 1, 2, . . ., K$
對於給定的實例x=(x(1),x(2),...,x(n))T ，計算:
$P (Y = c k) \prod j = 1 n P (X (j) = x (j) | Y = c k) k = 1, 2, . . ., K$
確定實例x 的分類
$y = arg max c k P (Y = c k) \prod j = 1 n P (X (j) = x (j) | Y = c k) k = 1, 2, . . ., K$

3. 舉例

首先計算先驗概率和條件概率
$P (Y = 1) = 9 15 ， P (Y = - 1) = 6 15 P (X (1) = 1 | Y = 1) = 2 9 ， P (X (1) = 2 | Y = 1) = 3 9 ， P (X (1) = 3 | Y = 1) = 4 9 P (X (2) = S | Y = 1) = 1 9 ， P (X (2) = M | Y = 1) = 4 9 ， P (X (2) = L | Y = 1) = 4 9 P (X (1) = 1 | Y = - 1) = 3 6 ， P (X (1) = 2 | Y = - 1) = 2 6 ， P (X (1) = 3 | Y = - 1) = 1 6 P (X (2) = S | Y = - 1) = 3 6 ， P (X (2) = M | Y = - 1) = 2 6 ， P (X (2) = L | Y = - 1) = 1 6$
對於給定的x=(2,S)T 計算：
$P (Y = 1) P (X (1) = 2 | Y = 1) P (X (2) = S | Y = 1) = 9 15 \cdot 3 9 \cdot 1 9 = 1 45 P (Y = - 1) P (X (1) = 2 | Y = - 1) P (X (2) = S | Y = - 1) = 6 15 \cdot 2 6 \cdot 3 6 = 1 15$
根據得出的概率，取得最大的概率的類，所以: $y = - 1.$

Robin__Chou

發佈了110 篇原創文章 · 獲贊 125 · 訪問量 34萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習 - 樸素貝葉斯法

1. 樸素貝葉斯法的學習

2. 樸素貝葉斯法使用流程

3. 舉例

牛頓迭代法求解方程

Unix/Linux下5種I/O模型

Unix系統編程(6) - I/O多路複用之select

C++四大類型轉換

Unix系統編程(5) - 多線程併發服務器

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結