機器學習與數據挖掘--樸素貝葉斯

前期知識

先驗概率與後驗概率

由以往的數據分析得到的概率,叫做先驗概率(經驗)

在得到信息之後加以重新修正的概率叫做後驗概率

後驗概率屬於條件概率的一種

樸素貝葉斯

樸素貝葉斯是貝葉斯分類裏面最簡單的一種

爲什麼叫樸素貝葉斯,樸素在哪裏?

假設所有的特徵之間是統計獨立的

樸素貝葉斯是基於貝葉斯定理與特徵條件獨立假設的分類方法。對於給定的訓練數據集,首先基於特徵條件獨立假設來學習輸入輸出的聯合概率分佈;然後基於此模型,進行預測:對給定的x(特徵),利用貝葉斯定理求出後驗概率最大的輸出y(類別)。
樸素貝葉斯通過訓練數據集學習聯合概率P(X,Y)。具體地,學習先驗概率分佈和條件概率分佈。

樸素貝葉斯進行分類時,對給定的輸入x,通過學習到的模型計算後驗概率分佈P(Y=C.IX=x))將後驗概率最大的類作爲x的類輸出。後驗概率計算根據貝葉斯定理進行。

在這裏插入圖片描述

先驗概率*所有特徵的概率

貝葉斯估計

可能出現的異常:

計算後驗概率時,是通過先驗概率和條件概率聯乘得到的。如果某個條件概率(他的特徵在數據訓練集裏面沒有出現過)爲0,則會影響到最終結果。即:無論其他條件概率如何,最後得到的結果都爲0.

解決方法:
貝葉斯估計

在分子和分母加上一些數
S(j)代表在第j的維度上的特徵有多少取值的可能

在這裏插入圖片描述
k代表樣本中所有類別的數目

貝葉斯估計實例

在這裏插入圖片描述

實例 引進貝葉斯估計對結果的定性(畢竟分類)不會產生影響

在這裏插入圖片描述

特徵值爲連續值的解決方法

只要計算出訓練樣本中在各個類別特徵值劃分的均值標準差,帶入公式即可得到其估計值(能代表整體數據的兩個特徵,即把所有整體數據利用能代表其全部的兩個特徵,)

利用高斯分佈(正態分佈)
😔,概率論學的全忘了,hhh

正態分佈是與中的定量現象的一個方便模型。各種各樣的心理學測試分數和現象比如計數都被發現近似地服從正態分佈

正態分佈公式:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章