Author: DivinerShi
朴樹貝葉斯方法其實就是一個根據先驗求後驗的過程。
**優點:**思想簡單,實現方便,適合小規模數據,適合多分類問題;
**缺點:**需要基於一定的假設,假設各個特徵之間相互獨立;對輸入數據的表現形式較爲敏感。
比如有一堆橘子,其中大部分青皮的,光滑的,小個的橘子比較酸,大部分黃皮的,粗糙的,大個的橘子比較甜。那麼現在現在來了一個青皮的,光滑的,大個的橘子,我們就可以根據之前的先驗知識,去計算這個橘子是酸的還是甜的概率,並將概率最大的作爲它的預測的酸甜度。
用數學描述:
即通過先驗條件概率分佈來計算後驗概率分佈
是總類別的第k個的意思。Y是類別,X是樣本。
樸素貝葉斯是基於條件獨立性假設的,它對條件概率分佈作了條件獨立性的假設。如下:
這裏的表示x的第1個特徵
這個假設就是說用於分類的樣本的各個特徵在類確定的條件下都是條件獨立的。但是真實情況下,樣本的不同特徵總是存在一定的相關性,所以樸素貝葉斯因該假設變得簡單,也因該假設影響了一定的分類準確度。
因此,對給定的輸入x,可以通過如下公式計算後驗概率分佈,並將後驗概率最大的類作爲x的類別,後驗概率計算根據貝葉斯定理得:
再把(1)帶入(2),可得
根據這個公司就可以算出樣本屬於每個類的概率,然後找出概率值最大的就可以了,
其中上式中,分母都是一樣的,而我們只需要找到最大的,那麼完全可以把分母去掉、
具體的概率計算方法(參數估計)-極大似然估計
分佈解釋上面式子中用到的各個概率的計算方法
先驗概率,就是取得某個類的概率,直接用該類在整個數據集中出現的次數計算,得
然後設第j個特徵可能取值的集合爲,條件概率的極大似然估計是
式中,是第i個樣本的第j個特徵;是第j個特徵可能取的第l個值;I爲指示函數.
整個過程:
**輸入:**訓練數據,其中,是第i個樣本的第j個特徵,是第j個特徵可能取的第l個值,,樣本x;
輸出:樣本x的類別。
1.計算先驗概率以及條件概率
2.對於給定的樣本,得
3.確定樣本x的類別
參考:
統計學習方法-李航