【統計學習方法讀書筆記】（四）樸素貝葉斯法

原創

2020-04-21 01:03

終於到了貝葉斯估計這章了，貝葉斯估計在我心中一直是很重要的地位，不過發現書中只用了不到10頁介紹這一章，深度內容後，發現貝葉斯估計的基礎公式確實不多，但是由於正態分佈在生活中的普遍性，貝葉斯估計才應用的非常多吧！
默認輸入變量用 $X$ 表示，輸出變量用 $Y$ 表示
概率公式描述：
$P(X=x)$ ：表示當 $X=x$ 時的概率
$P(X=x|Y=c_k)$ ：表示當 $Y=c_k$ 時， $X=x$ 的概率
貝葉斯法則： $P(Y_i|X)=\frac{P(X|Y_i)P(Y_i)}{\sum_j{P(X|Y_j)P(Y_j)}}$

1、什麼是先驗概率、後驗概率？

先驗概率（prior probability）是指根據以往經驗和分析得到的概率，如全概率公式，它往往作爲"由因求果"問題中的"因"出現的概率。
後驗概率是信息理論的基本概念之一。在一個通信系統中，在收到某個消息之後，接收端所瞭解到的該消息發送的概率稱爲後驗概率。

比如你拋了10次硬幣，7次正面朝上，接下來問你正面朝上的概率是多少，你說70%，此時這個就是先驗概率，它是我們從“以往”的經驗中積累得到的。

條件獨立性假設公式： $P(X=x|Y=c_k)=\prod_{j=1}^{n}{P(X^{(i)}=x^{(j)}|Y=c_k)}$
後驗概率一般是在已知先驗概率的前提下，通過貝葉斯定理計算得到的。
後驗概率計算公式： $P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_k{P(X=x|Y=c_k)P(Y=c_k)}}$
把條件獨立性假設公式代入有 $P(Y=c_k|X=x)=\frac{P(Y=c_k)\prod_{j}{P(X^{(i)}=x^{(j)}|Y=c_k)}}{\sum_k{P(Y=c_k)\prod_{j}{P(X^{(i)}=x^{(j)}|Y=c_k)}}}$
可以得到樸素貝葉斯分類器公式爲：
樸素貝葉斯分類器： $y=arg\underset{c_k}{max}P(Y=c_k)\prod_{j}{P(X^{(i)}=x^{(j)}|Y=c_k)}$

2、什麼是極大似然估計？

通俗解釋：先估計一下模型的參數，然後計算得到實驗結果的概率，概率越大，那麼這個參數就可能越接近真實值。

先驗概率 $P=(Y=c_k)$ 的極大似然估計： $P(Y=c_k)=\frac{\sum_{i=1}^{N}{I(y_i=c_k)}}{N}, k=1,2,...,K$ 公式中的 $I(y_i=c_k)$ 可以理解爲是能夠通過已知的時間結果中計算的概率，稍後可以通過第3題知道究竟是什麼。
設第 $j$ 個特徵可能取值的集合爲 $\{a_{j1},a_{j2},...,a_{jS_j}\}$ ，條件概率 $P(X^{j}=a_{jl}|Y=c_k)$ 的極大似然估計是： $P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^{N}{I(x_i^{(j)}=a_{jl},y_i=c_k)}}{\sum_{i=1}^N{I(y_i=c_k)}}$ $j=1,2,...,n; l=1,2,...,S_j; k=1,2,....,K$ 其中， $x_i^{(j)}$ 是第 $i$ 個樣本的第 $j$ 個特徵； $a_{jl}$ 是第 $j$ 個特徵可能取得第 $l$ 個值； $I$ 爲指示函數

3、試着由下表的訓練數據學習一個樸素貝葉斯分類器並確定 $x=(2,S)^T$ 的類標記 $y$ 。表中 $X^{(1)}$ , $X^{(2)}$ 爲特徵，取值的集合分別爲 $A_1=\{1,2,3\}$ , $A_2=\{S,M,L\}$ ， $Y$ 爲類標記， $Y\in{C=\{1,-1\}}$ 。

	1	2	3	4	5	6	7	8	9
$X^{(1)}$	1	1	1	2	2	2	3	3	3
$X^{(2)}$	S	S	M	L	L	S	S	M	L
$Y$	1	1	1	-1	-1	1	-1	-1	-1

4、貝葉斯公式及貝葉斯估計算法？

5、貝葉斯估計與極大似然估計方法的比較？

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【統計學習方法讀書筆記】（四）樸素貝葉斯法

1、什麼是先驗概率、後驗概率？

2、什麼是極大似然估計？

3、試着由下表的訓練數據學習一個樸素貝葉斯分類器並確定 $x=(2,S)^T$ 的類標記 $y$ 。表中 $X^{(1)}$ , $X^{(2)}$ 爲特徵，取值的集合分別爲 $A_1=\{1,2,3\}$ , $A_2=\{S,M,L\}$ ， $Y$ 爲類標記， $Y\in{C=\{1,-1\}}$ 。

4、貝葉斯公式及貝葉斯估計算法？

5、貝葉斯估計與極大似然估計方法的比較？

python gdal 安裝使用（Windows， python 3.6.8）

復旦大學nlp實驗室上手教程之文本分類

【統計學習方法讀書筆記】（二）感知機

【統計學習方法讀書筆記】（一）統計學習及監督學習概論

【統計學習方法讀書筆記】（四）樸素貝葉斯法

【統計學習方法讀書筆記】（三）k近鄰法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結