貝葉斯分類器 Bayesian decision, BD

原創

2019-06-13 09:29

貝葉斯決策論是概率框架下實施決策的基本方法。

給定兩個事件x和y，其各自發生的概率分別爲和。它們聯合發生的概率（表示爲,以及它們相互發生的條件概率（如就表示給定事件x發生的情況下，事件y發生的概率）有如下關係：

應用此式，可以得到貝葉斯法則並進而得到關於的概率表示

$p(y|x)=\frac{p(x|y)p(y)}{p(x)}$

貝葉斯實際例子：垃圾郵件過濾器

A、單個單次判斷垃圾郵件（貝葉斯定理）

郵件中單詞用“word”表示，垃圾郵件用“spam”表示，應用貝葉斯公式可以計算出，如果一個單次出現，該郵件可能是垃圾郵件的概率：

$p(spam|word)=\frac{p(word|spam)p(spam)}{p(word))}$

如果有足夠多的已經做好標籤的訓練數據，右邊各項都可以計算出來。如果用“ham”表示正常郵件，那麼只需計算：,,以及。等式右邊分母部分計算：

。

步驟：

計算所有郵件中垃圾郵件的比例
在所有垃圾郵件中計算某一個特定單詞出現的概率
在所有正常郵件中計算某一個特定單詞出現的概率

假設 $p(spam|meeting)=\frac{p(meeting|spam)*p(spam)}{p(meeting)}=\frac{0.0106*0.29}{0.0106*0.29+0.0416*0.71}$ =9%

money：80%

enron：0%

vigra：100%

B、利用所有單詞信息，搭建樸素貝葉斯（樸素貝葉斯是基於貝葉斯定理與特徵條件假設的分類方法）

每一份郵件都可以表示爲一個二元向量，這個向量的第 j 個元素是0 還是1 取決於第 j 個單詞是否出現在這封郵件中（出現爲1，否則爲0）。向量的長度取決於總共要考慮的單詞個數。如果要考慮所有在郵件中出現過的單詞，那麼這個向量必然會很長。

輸出目標：

給定一份郵件的標籤後（即知道它是否爲垃圾郵件後），這封郵件所代表的向量中單詞一起出現的概率。

一份郵件的單詞向量是多維的， $p(words| class)=p(f_{0},f_{1},\cdots ,f_{n}|c)$ ,這裏假設爲2維的，有

$p(f_{0},f_{1}|c)=p(f_{1}|c,f_{0})p(f_{0}|c)$

假設單詞之間是獨立的

$p(f_{0},f_{1}|c)=p(f_{1}|c)p(f_{0}|c)$

即

$p(f_{0},f_{1},\cdots ,f_{n}|c)=\prod_{i}^{n}p(f_{i}|c)$

對每個類別計算一個概率 $p(c_{i})$ ，然後再計算所有特徵的條件概率 $p(f_{j}|c_{i})$ ，那麼分類依據貝葉斯找一個最可能的類別：

$p(class_{i}| f_{0},f_{1},\cdots ,f_{n})=\frac{p(class_{i})\prod_{j}^{n}p(f_{j}|c_{j})}{p(f_{0},f_{1},\cdots ,f_{n})}$

樸素貝葉斯模型的核心概念是獨立性。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

CART實現

基於R的CART的實現包有tree,rpart. tree rpart

2020-07-07 22:26:30

Ridge regression

參考文獻 1.Hoerl A E, Kennard R W. Ridge regression: Biased estimation for nonorthogonal problems[J]. Technometrics, 19

2020-07-07 22:26:30

Python實現kd樹

kd樹的數據結構和二叉樹類似，每個節點存有當前節點的數值，左右子樹的節點，和以當前節點爲根節點的子樹的劃分維度。 class KdNode: def __init__(self, dim, val, left=None, ri

2020-07-07 00:33:04

PCA方法Python代碼實現

關於PCA方法的原理這裏就不介紹了，網絡上很多文章寫得都很好，這裏給出以三維點集的PCA爲例，在python裏實現PCA方法。 PCA方法的主要步驟是：數據中心化計算協方差矩陣根據協方差矩陣計算出特徵值和特徵向量 python代碼如

2020-07-07 00:33:04

hadoop 簡單入門與streaming常用配置參數說明

1. Hadoop包含兩核心部分 hdfs Hadoop distribute file system -- hadoop分佈式文件系統，存儲數據 Namenode、Datanode 常用命令形式：hadoop fs -ls / h

2020-07-06 23:19:09

假設空間版本空間&查全率查準率

一、假設空間版本空間根據P4表1.1和P5圖1.1得，假設空間爲： 1 色澤＝＊，根蒂＝＊，敲聲＝＊2 色澤＝青綠，根蒂＝＊，敲聲＝＊3 色澤＝烏黑，根蒂＝＊，敲聲＝＊4 色澤

liangyingyi1006

2020-07-04 10:41:01

Transformers與圖神經網絡的關係，我們能從transformer學習到什麼？

1、導讀這個觀點的目的是構建Transformer結構背後的NLP上的直覺，以及與圖神經網絡的聯繫。圖深度學習”聽起來很厲害，但有什麼大的商業成功的故事嗎？它有沒有被部署在實際app中？除了Pinterest、阿里巴巴和Tw

BUAA～冬之恋

2020-07-04 03:47:48

機器學習——分類算法之決策樹

機器學習——分類算法之決策樹前言1、信息熵2、條件熵ID3算法C4.5決策樹CART決策樹1、CART決策樹的分類算法2、CART決策樹的迴歸算法剪枝1、預剪枝2、後剪枝連續值和缺失值的處理1、連續值的處理2、缺失值的處理前言

2020-07-03 16:48:56

機器學習——分類算法之感知機

機器學習——分類算法之感知機前言符號函數感知機模型感知機算法1、原始形式2、對偶形式代碼前言感知機算法（perceptron）是用於二分類的線性分類模型，將輸入實例劃分爲正例和負例的一個超平面，屬於判別模型。感知機算法旨在求出

2020-07-03 16:10:50

機器學習——貝葉斯算法和樸素貝葉斯算法

機器學習——分類算法之貝葉斯算法和樸素貝葉斯算法前言一、貝葉斯算法算法示例二、樸素貝葉斯分類器1、貝葉斯決策論2、多元正太分佈參數的極大似然估計3、樸素貝葉斯分類器前言這部分的公式推導較多，涉及到了極大似然估計和貝葉斯估計，要

2020-07-03 16:10:50

機器學習——分類算法之邏輯迴歸

機器學習——分類算法之邏輯迴歸前言邏輯迴歸(Logistic Regression)1、Sigmoid函數2、算法推導3、代碼前言邏輯迴歸也被稱爲對數機率迴歸，注意這裏面說的迴歸並不是真正意義上的迴歸算法，其實它是一個經典的分

2020-07-03 16:10:50

邏輯迴歸解決多分類問題

邏輯迴歸解決多分類問題第一種方式：從類別入手1、OVO(one vs one)2、OVR(One Vs Rest)第二種方法：從算法入手傳統的邏輯迴歸只能處理二分類問題，對於多分類任務，主要有如下兩種方案。第一種方式：從類別入

2020-07-03 16:10:50

機器學習---線性迴歸算法梳理

線性迴歸算法梳理任務1 - 線性迴歸算法梳理一、基本概念二、線性迴歸的原理三、線性迴歸損失函數、代價函數、目標函數四、優化方法(梯度下降法、牛頓法、擬牛頓法等)五、線性迴歸的評估指標六、sklearn參數詳解任務1 - 線性迴歸

2020-07-03 16:09:47

windows系統下python快速註釋多行

以下才做適合於Windows系統。除了對每一行前面添加#的註釋方式外（如若要註釋多行，這種方式較慢），我們還可以考慮另外兩種註釋方式： 1、Ctrl + / （先選中要註釋的代碼，再按Ctrl + /） 2、用’’’ ‘’'或者

2020-07-03 16:09:36

隱馬爾科夫模型HMM（三）鮑姆-韋爾奇算法求解HMM參數

文章目錄HMM模型參數求解概述鮑姆-韋爾奇算法的推導鮑姆-韋爾奇算法流程總結 HMM模型參數求解概述 HMM模型參數求解根據已知的條件可以分爲兩種情況。第一種情況較爲簡單，就是我們已知D個長度爲T的觀測序列和對應的隱藏狀態序列，

2020-07-03 13:01:58

24小時熱門文章

最新文章

最新評論文章