機器學習(9)貝葉斯分類

先來看一個例子:
假設廣東娛樂大學裏面男生和女生人數比例是3:1,男生中留長髮的比例是10%,女生留長髮的比例是80%。現在隨機觀測到N個留長髮的學生的背影,推論這N個學生中女生的比例。
這裏假設學校總人數是U人,P(男)表示U人中男生的比例,即75%,P(長髮|男)表示在男裏面長髮的比例,即10%,這就是個條件概率。那麼,同樣地,P(女)=25%,P(長髮|女)=80%
現在要求的是長髮中是女的概率,

化簡後得:

貝葉斯基本公式(也稱爲樸素貝葉斯)就是:

其中P(A)表示A的先驗概率(也稱邊緣概率),之所以爲“先驗”,是因爲它不考慮到B方面的因素,P(B|A)表示A發生後B再發生的條件概率,所以條件概率也稱爲後驗概率。
再用一個場景更實際的例子:
給定數據如下:

現在給我們的問題是,如果一對男女朋友,男生想女生求婚,男生的四個特點分別是不帥,性格不好,身高矮,不上進,請你判斷一下女生是嫁還是不嫁?這是一個典型的分類問題,轉爲數學問題就是比較p(嫁|(不帥、性格不好、身高矮、不上進))與p(不嫁|(不帥、性格不好、身高矮、不上進))的概率,誰的概率大,我就能給出嫁或者不嫁的答案!

其中p(不帥、性格不好、身高矮、不上進|嫁) = p(不帥|嫁)*p(性格不好|嫁)*p(身高矮|嫁)*p(不上進|嫁),那麼我就要分別統計後面幾個概率,也就得到了左邊的概率。
得出結果爲:


因爲樸素貝葉斯假設特徵之間是獨立的,儘管該假設不是很嚴謹,但實際應用效果不錯。
這裏僅僅講樸素貝葉斯.
日常深推一波公衆號:


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章