樸素貝葉斯

樸素貝葉斯

原創

lvzcl1

2018-08-30 13:49

1.樸素貝葉斯

注：樸素貝葉斯和貝葉斯法不是同一個概念

樸素貝葉斯法是基於樸素貝葉斯定理和條件獨立性假設的方法。對於給定數據集，先基於特徵條件獨立假設學習輸入/輸出的聯合分佈。然後基於這個模型，求出給定的輸入x的後驗概率最大的輸出y。

定義：設輸入空間 $χ \subseteq R^{n}$ 爲n維向量的集合，輸出空間爲類標記集合 $γ$ = { $c_{1}, c_{2}, \dots, c_{k}$ }。X是定義在輸入空間 $χ$ 上的隨機變量，Y是定義在輸出空間 $γ$ 上的隨機變量。P(X,Y)是X和Y的聯合概率分佈，訓練數據集T={ $(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{N}, y_{N})$ }由P(X,Y)獨立同分布產生。

樸素貝葉斯法通過訓練集學習到聯合概率分佈P(X,Y)。想要學習到聯合概率分佈，我們需要先知道先驗概率分佈和條件概率分佈。先驗概率分佈爲

P (Y = c_{k}), k = 1, 2, \dots, K

條件概率分佈爲

P (X = x | Y = c_{k}) = P (X^{(1)} = x^{(1)}, \dots, X^{(n)} = x^{(n)} | Y = c_{k}), k = 1, 2, \dots, K

於是我們可以得到聯合概率分佈。

樸素貝葉斯法提出了條件獨立性的假設。具體的，條件獨立性假設爲

P (X = x | Y = c_{k}) = P (X^{(1)} = x^{(1)}, \dots, X^{(n)} = x^{(n)} | Y = c_{k}) = \prod_{j = 1}^{n} P (X^{(j)} = x^{(j)} | Y = c_{k})

樸素貝葉斯分類時，對於給定的x，通過學習到的模型計算後驗概率分佈

P (Y = c_{k} | X = x)

，將後驗概率最大的雷作爲x的類輸出。後驗概率根據貝葉斯定理可以得到:

\begin{aligned} P (Y = c_{k} | X = x) & = \frac{P (X = x | Y = c_{k}) P (Y = c_{k})}{P (X = x)} (此 處 P (X = x) 不 展 開) \\ = \frac{\prod_{j = 1}^{n} P (X^{(j)} = x^{(j)} | Y = c_{k})}{P (X = x)} (代 入 條 件 獨 立 性 得 到) \end{aligned}

因爲分母都是一樣的，所以

y = a r g m a x_{c_{k}} P (Y = c_{k}) \prod_{j} P (X^{(j)} = x (j) | Y = c_{k})

2.後驗概率最大化

對於樸素貝葉斯函數，損失函數我們採取0-1損失函數：

\begin{matrix} (2) & L (Y, f (x)) = {\begin{aligned} 1, Y \neq f (X) \\ 0, Y = f (X) \end{aligned} \end{matrix}

接下來，書中求的是期望風險函數，對於期望風險，指的是對新樣本的預測能力，而期望風險函數，也就是泛化誤差:

R_{e x p} (f) = E [L (Y, f (X)] = \int L (Y, f (X)) P (X, Y) d x d y

我們需要最小化泛化誤差，也就是期望風險函數，：

\begin{aligned} f (x) & = a r g m i n \int L (Y, f (X)) P (X, Y) d x d y \\ = a r g m i n \int L (Y, f (X)) P (Y | X) P (X) d x d y (使 用 條 件 概 率 公 式) \\ = a r g m i n \int \underline{(\int L (Y, f (X)) P (Y | X) d y)} P (X) d x \end{aligned}

要使上述公式最小，我們需要使得上面下劃線上的公式值最小，也就是使得y關於x的條件期望最小。而且y的取值是離散值，於是我們可以把條件期望寫成如下形式

R_{e x p} = E_{χ} \sum_{k = 1}^{K} [L (c_{k}, f (X)))] P (c_{k} | X)

於是我們可以得到：

\begin{aligned} f (x) & = a r g m i n_{y \in γ} \sum_{k = 1}^{K} L (c_{k}, y) P (c_{k} | X = x) \\ (1) & = a r g m i n_{y \in γ} \sum_{k = 1}^{K} P (y \neq c_{k} | X = x) \\ (2) & = a r g m i n_{y \in γ} (1 - P (y = c_{k} | X = x)) \\ = a r g m a x_{y \in γ} P (y = c_{k} | X = x) \end{aligned}

對於f(x)來說，我們想找到y屬於某一類，使得所需條件最小化或者所需條件最大化，對於(1)處，是k-1個數相加，因爲y屬於某一類，則必定存在一個c_{k}=y,而且對於所有的k=1，2，…，K。可以得到

P (c_{k} | X = x) = 1

,於是我們可以得到(1)到(2)的變化。

貝葉斯估計

採用極大似然估計(本文省略了樸素貝葉斯的參數估計，想了解的看書上內容)會出現概率值爲0的情況，會很大程度影響到後驗概率的計算。解決這一問題的方法是採用貝葉斯估計。具體的，條件概率的貝葉斯估計是

P_{λ} (X^{(j)} = a_{j l} | Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (x_{i}^{(j)} = a_{j l}, y_{i} = c_{k}) + λ}{\sum_{i = 1}^{N} I (y_{i} = c_{k}) + S_{j} λ}

式子中

X_{i}^{(j)}

是指第i個樣本的第j個特徵;

a_{j l}

是第j個特徵的可能取的第l個值，

S_{j}

是指第j個特徵的可能取值數量。先驗概率的貝葉斯估計爲

P_{λ} (Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (y_{i} = c_{k}) + λ}{N + K λ}

K是y的類別數量，N是數據集中輸入變量的數量。式子中的

λ \geq 0

。當

λ = 0

時是極大似然估計，

λ = 1

時，是拉普拉斯平滑。在實際工程中，比如計算廣告中計算廣告轉換率時，也會採用貝葉斯平滑，想了解的可以去尋找相關博文或者論文。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

1.樸素貝葉斯

2.後驗概率最大化

貝葉斯估計

knn算法以及算法實現

感知機算法及實現

統計學習第一章習題

樸素貝葉斯

M次多項式擬合

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結