【模式識別】貝葉斯分類器的訓練

原創

2020-03-12 00:13

貝葉斯分類決策規則：依據計算得到的後驗概率對樣本進行歸類
條件：先驗概率和類條件概率已知。
因此只要知道
$P(w_j)$ 和 $P(x|w_j)$ 就可以設計出貝葉斯分類器，而 $P(w_j)$ 和 $P(x|w_j)$ 並不能預先知道，需要用樣本集中的信息去進行估計，所以貝葉斯分類器的訓練就是通過樣本集中去估計 $P(w_j)$ 和 $P(x|w_j)$ 。
先驗概率 $P(w_j)$ 不是一個分佈函數，只是一個值，表達了樣本空間中，各個樣本所佔的比例。

$P(w_j)$

當樣本集數量足夠多，且來自於樣本空間的隨機選取時，可以用比例來估計 $P(w_j)$ （大數定理）
如果不是隨機抽樣的，那麼就不能用佔比來估計 $P(w_j)$ ，這時可以假設 $P(w_j)$ 爲 $\frac{1}{c}$ ，c爲樣本類數。
把 $P(w_j)$ 不看做一個未知的常量，而看做一個概率分佈，可以任意設定 $P(w_j)$ 的初值，在已知類條件概率的情況下，計算訓練集中屬於某一個類的所有樣本的後驗概率，然後將其數學期望來更新先驗概率。

$P(x|w_j)$

$P(x|w_j)$ 是一個概率密度函數，需要與訓練集中樣本特徵的分佈情況進行估計，估計方法可以分爲

參數估計

參數估計是先假設樣本的概率密度具有某種確定的形式，比如正態分佈、二項分佈，然後用現有的樣本，對分佈的參數進行估計。常用的如下兩種

極大似然估計

把用於估計的所有樣本做爲結果，把概率分佈的參數作爲條件，最有可能抽取到已知樣本集中所有樣本的概率分佈參數，就是極大似然的參數，也就是我們能夠得到的最優參數的估計值。如採用極大似然估計來估計類條件概率需要滿足以下幾項基本條件

類條件概率的分佈形式是已知的： $\theta^i$
訓練集中第i類的所有樣本： $X^i$
訓練集中屬於第 $i$ 類的一個樣本： $x_k \in X^i$

樣本集 $X^i$ 的 $\theta^i$ 似然函數：
$p(X^i|\theta^i)=\prod^n_{k=1}p(x_k|\theta^i)$

以一維正態分佈爲例

極大似然估計是把待估計的參數看做是確定性的未知量，然後根據樣本集的數據去求取該未知參數的最優估計值。

貝葉斯估計

把待估計參數看做是具有某種分佈形式的隨機變量。通過對 $X^i$ 類學習樣本的觀察，使概率密度分佈 $P(X^i|\theta^i)$ 轉化爲後驗概率 $P(\theta^i|X^i)$
，再通過求取後驗概率的數學期望來獲得 $\theta^i$ 的估計值。

非參數估計

不假設類的概率密度分佈，直接用樣本集中，直接用樣本集中的信息，來估計樣本的概率分佈情況，非參數估計一般得到的是一個數值模型。當完成非參數估計後，可以通過數值計算來獲得任何一個樣本在某一個類別中出現的類條件概率值。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【模式識別】貝葉斯分類器的訓練

$P(w_j)$

$P(x|w_j)$