貝葉斯文本分類器原理and技術要點

一 原理:

貝葉斯公式:P(Y|X)=P(X,Y)/P(X)=P(X|Y)*P(Y)/P(X)

貝葉斯分類:輸入 X=(X1,X2...,Xn) 輸出  P(Y1|X)...P(Yk|X)中最大的一個作爲分類結果。

                       假設:輸入各分量相互獨立即P(Y1|X)=P(X|Y1)*P(Y1)/P(X)=P(X1|Y1)*...*P(Xn|Y1)*P(Y1)/(P(X1)*...*P(Xn))

文本分類模型:(1)英文文本分類:假設英文中有50000個單詞,每一篇文章用一個50000維的向量表示。某一維如果爲0則表示對應單詞在文章中沒有出現,爲1則代表出現                                     過。

                            (2)多項式模型:文章用一個向量表示,這個向量長度爲文中詞的個數。某一維元素爲對應位置的單詞。

二 技術要點:

中文分詞;(ICTCLAS)

計算P(Y1)-P(Yk);

計算先驗概率 P(X|Y1);

輸出後驗概率P(Y1|X);

三 技術改進:

(1)拉普拉斯平滑:

(2)特徵選擇:TF.IDF


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章