統計學習方法第四章習題答案

第4章的習題與習題1.1有些相似，建議兩章一起看，關於極大似然估計和貝葉斯估計我在第一章的習題中講解了，可以先看看第一章的解答。
第一章習題是在伯努利試驗中做貝葉斯估計時，採用的是 $\beta$ 分佈，但是本章是多個結果的試驗，例如扔色子、多分類任務，此時需使用狄利克雷分佈。

習題4.1

題目：用極大似然估計法推出樸素貝葉斯法中的概率估計公式（4.8）及公式（4.9）。

公式4.8
$P\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N}, \quad k=1,2, \ldots, K$

其中 $I$ 爲指示函數， $y = c_{k}$ 時爲1，否則爲0，在書的第10頁有介紹。
設 $P\left(Y=c_{k}\right)=\theta$ ，進行 $N$ 次實驗，有 $n$ 次 $Y=c_{k}$ .
即 $n=\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)$

$P\left(Y=c_{k}\right)$	$P\left(Y\neq c_{k}\right)$
$\theta$	$1-\theta$

則有 $L(\theta) = \theta^n\cdot(1-\theta)^{N-n}$
一般取對數作爲似然函數 $L(\theta) = n\cdot log\theta+(N-n)\cdot log(1-\theta)$
求導 $L'(\theta) = n\cdot \frac{1}{\theta}+(N-n)\cdot \frac{1}{1-\theta}$
令 $L'=0$ ，有 $\theta = \frac{n}{N} = \frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N}$
得證

公式4.9
$P\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}$

證明過程類似，設 $P\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=\theta$ ，進行了N次實驗，有 $n$ 次 $Y=c_{k}$ ，有 $m$ 次 $Y=c_{k},X^{(j)}=a_{j l}$
即 $n=\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right),m=\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)$
有 $L(\theta) = \theta^m\cdot(1-\theta)^{n-m}$
取對數 $L(\theta) = m\cdot log\theta+(n-m)\cdot log(1-\theta)$
求導 $L'(\theta) = m\cdot \frac{1}{\theta}+(n-m)\cdot \frac{1}{1-\theta}$
令 $L'=0$ ，有 $\theta = \frac{m}{n} = \frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}$
得證

習題4.2

用貝葉斯估計法推出樸素貝葉斯法中的概率估計公式（4.10）及公式（4.11）。
與習題4.1類似，假設進行了N次實驗，有 $n_{i}$ 次 $Y=c_{i}$ ，有 $m_{i}$ 次 $Y=c_{i},X^{(j)}=a_{j l}$
即 $n_{i}=\sum_{i=1}^{N} I\left(y_{i}=c_{i}\right),m_{i}=\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{i}\right)$

公式4.11
$P_{\lambda}\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+\lambda}{N+K \lambda}$

假設 $P_{\lambda}\left(Y=c_{i}\right)=\theta_{i}$ ，其中 $\theta_{i}$ 服從參數爲 $\alpha_{i}$ 的狄利克雷分佈。
即有 $f\left(\theta_{1}, \cdots, \theta_{K} | \alpha_{1}, \ldots, \alpha_{k}\right)=\frac{1}{B\left(\alpha_{1}, \cdots, \alpha_{K}\right)} \prod_{i=1}^{K} \theta_{i}^{\alpha_{i}-1}$
與極大似然估計類似，有 $P\left(N | \theta_{1}, \cdots,\theta_{K}\right)=\theta^{n_{1}}_{1}\theta^{n_{2}}_{2}...\theta^{n_{K}}_{K}=\prod_{i=1}^{K} \theta_{i}^{n_{i}}$
$P\left(\theta_{1}, \cdots, \theta_{K} | N\right) \propto P\left(N | \theta_{1}, \cdots, \theta_{K}\right) P\left(\theta_{1}, \cdots, \theta_{k}\right)\propto\prod_{i=1}^{K} \theta_{i}^{\alpha_{i}-1}\prod_{i=1}^{K} \theta_{i}^{n_{i}}\propto\prod_{i=1}^{K} \theta_{i}^{\alpha_{i}-1+n_{i}}$
所以有後驗概率 $P\left(\theta_{1}, \cdots, \theta_{k} | N\right)$ 服從於狄利克雷分佈
$P_{\lambda}\left(Y=c_{i}\right)$ 取 $\theta_{i}$ 的期望 $E(\theta_{i})=\frac{n_{i}+\alpha_{i}}{N+\sum_{j=1}^{k}\left(\alpha_{j}\right)}$ ，若假設 $\theta_{i}$ 服從參數爲 $\lambda$ 的狄利克雷分佈，即 $\alpha_{1}=\alpha_{2}=...=\alpha_{k}=\lambda$ ,則有 $E(\theta_{i})=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{i}\right)+\lambda}{N+K*\lambda}$
得證

公式4.10
$P_{\lambda}\left(X^{(j)}=a_{j{l}} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j}, y_{i}=c_{k}\right)+\lambda}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+S_{j} \lambda}$ ,其中 $S_{j}$ 表示第 $j$ 個特徵的取值個數

證明過程類似，知識參數有點變動，設 $P\left(X^{(j)}=a_{j l} | Y=c_{i}\right)=\theta_{i}$ ， $\theta_{i}$ 服從於參數爲 $\alpha_{i}$ 的狄利克雷分佈。
即有 $f\left(\theta_{1}, \cdots, \theta_{S_{j}} | \alpha_{1}, \ldots, \alpha_{S_{j}}\right)=\frac{1}{B\left(\alpha_{1}, \cdots, \alpha_{S_{j}}\right)} \prod_{i=1}^{S_{j}} \theta_{i}^{\alpha_{i}-1}$
同理 $P\left(n | \theta_{1}, \cdots,\theta_{k}\right)=\theta^{m_{1}}_{1}\theta^{m_{2}}_{2}...\theta^{m_{K}}_{K}=\prod_{i=1}^{S_{j}} \theta_{i}^{m_{i}}$
$P\left(\theta_{1}, \cdots, \theta_{S_{j}} | n\right) \propto P\left(n | \theta_{1}, \cdots, \theta_{S_{j}}\right) P\left(\theta_{1}, \cdots, \theta_{S_{j}}\right)\propto\prod_{i=1}^{S_{j}} \theta_{i}^{\alpha_{i}-1}\prod_{i=1}^{S_{j}} \theta_{i}^{m_{i}}\propto\prod_{i=1}^{S_{j}} \theta_{i}^{\alpha_{i}-1+m_{i}}$
所以有後驗概率 $P\left(\theta_{1}, \cdots, \theta_{S_{j}} | n\right)$ 服從於狄利克雷分佈
$P_{\lambda}\left(X^{(j)}=a_{j{l}} | Y=c_{k}\right)$ 取 $\theta_{i}$ 的期望 $E(\theta_{i})=\frac{m_{j}+\alpha_{i}}{n+\sum_{j=1}^{S_{j}}\left(\alpha_{j}\right)}$ ，若假設 $\theta_{i}$ 服從參數爲 $\lambda$ 的狄利克雷分佈，即 $\alpha_{1}=\alpha_{2}=...=\alpha_{S_{j}}=\lambda$ ,則有 $E(\theta_{i})=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{i}\right)+\lambda}{\sum_{i=1}^{N} I\left(y_{i}=c_{i}\right)+S_{j}*\lambda}$

參考

極大似然估計與貝葉斯估計（強推，博主講得很詳細）
狄利克雷分佈與貝葉斯分佈分佈
 第4章習題

統計學習方法第四章習題答案

習題4.1

習題4.2

參考

DCGAN生成二次元頭像（Pytorch）

1020 Delete At Most Two Characters (35 分)（C++）

PAT頂級目錄（C++）

爬取知乎表情包

WaveNet筆記

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

統計學習方法 第四章習題答案

習題4.1

習題4.2

參考

統計學習方法第四章習題答案