統計學習方法第一章習題答案

習題1涉及極大似然估計和貝葉斯估計，可以先看看書的第4章相關內容。

極大似然估計與貝葉斯估計

符號	含義
D	測試數據
$\theta$	待估計的參數
$p(\theta)$	先驗概率
$p(\theta\mid D)$	後驗概率
$p(D\mid\theta)$	似然函數

對極大似然函數而言，即取使得 $p(D\mid\theta)$ 最大的 $\theta$ 值。有公式 $p(\theta \mid D)=\frac{p(D \mid \theta) p(\theta)}{p(D)}$ ，而 $p(\theta)$ 和 $p(D)$ 都是確定的，只要最大化 $p(D \mid \theta)=\prod_{i=1}^{n} p\left(x_{i} \mid\theta\right)$ 即可
而對於貝葉斯估計，先人爲假設 $\theta$ 的分佈（先驗概率），利用期望求極大後驗概率， $E(x | D)=\int_{x} x p(x | D) d x$

習題1.1

題目：說明伯努利模型的極大似然估計以及貝葉斯估計中的統計學習方法三要素。伯努利模型是定義在取值爲0與1的隨機變量上的概率分佈。假設觀測到伯努利模型n次獨立的數據生成結果，其中k次的結果爲1，這時可以用極大似然估計或貝葉斯估計來估計結果爲1的概率。

答：
模型：伯努利模型，即定義在取值爲0與1的隨機變量上的概率分佈。
策略：極大似然估計和貝葉斯估計的策略都是對數損失函數，貝葉斯估計使用的是結構風險最小化。
算法：極大似然估計所使用的算法是求取經驗風險函數的極小值，貝葉斯估計所使用的算法是求取參數的後驗分佈，然後計算其期望。

設 $P(A=1) = \theta$ ，進行了n次實驗，其中有k次值爲1
方法一：極大似然估計
設似然函數爲 $L(\theta)=\prod_{i=1}^{n} P\left(A_{i}\right)=\theta^{k}(1-\theta)^{n-k}$
取對數爲 $L(\theta)=k * ln\theta + (n-k) * ln(1-\theta)$
對L求 $\theta$ 導： $L'(\theta)= \frac{k}{\theta} - \frac{n-k}{1-\theta}$
令L’等於0， $\theta = \frac{k}{n}$
方法二：貝葉斯估計
先將 $\theta$ 看作一個變量， $f\left(\theta \right)$ 表示 $\theta$ 的先驗分佈，假設 $\theta$ 服從於 $\beta(a,b)$ 分佈（關於爲什麼假定爲 $\beta$ 分佈等問題可以參考文末鏈接），即 $f\left(\theta \right) =\frac{\Gamma(a+b)}{\Gamma(a)+\Gamma(b)}\theta^{a-1}(1-\theta)^{b-1}=\frac{1}{B(a, b)} \theta^{a-1}(1-\theta)^{b-1}$
其中 $\Gamma(x)=\int_{0}^{\infty} t^{x-1} e^{-t} d t$
$P\left(\theta | A_{1}, A_{2}, \ldots, A_{n}\right)=\frac{P\left(A_{1}, A_{2}, \ldots A_{n} | \theta\right) f(\theta)}{P\left(A_{1}, A_{2}, \ldots, A_{n}\right)}$
同樣假設做了n次實驗，有有k次值爲1，有 $P\left(A_{1}, A_{2}, \ldots A_{n} | \theta\right) = \theta^k(1-\theta)^{n-k}$
有 $P\left(\theta | A_{1}, A_{2}, \ldots, A_{n}\right)\propto{P\left(A_{1}, A_{2}, \ldots A_{n} | \theta\right) f(\theta)}\propto\theta^{a+k-1}(1-\theta)^{n-k+b-1}$
加上標準化，可以得到後驗分佈符合 $\beta(a+k,n-k+b)$ 分佈。
即 $P\left(\theta | A_{1}, A_{2}, \ldots, A_{n}\right)=\frac{\Gamma(a+b+n)}{\Gamma(a+k)+\Gamma(b+n-k)}\theta^{a+k-1}(1-\theta)^{n-k+b-1}$
$P(A=1)$ 的值爲上式的期望，即 $\frac{a+k}{a+b+n}$
（ $\beta(a,b)$ 分佈的期望爲 $\frac{a}{a+b}$ ）

習題1.2

題目：通過經驗風險最小化推導極大似然估計.證明模型是條件概率分佈，當損失函數是對數損失函數時，經驗風險最小化等價於極大似然估計.

答：在證明前先理一下概念
①損失函數爲對數函數 $L\left(y_{i}, f\left(x_{i}\right)\right)=-\log P\left(y_{i} | x_{i}\right)$
② 經驗風險最小化ERM是指，使得訓練集的平均損失最小，即 $\begin{aligned} R_{e m p}(f) &=\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)\end{aligned}$
③極大似然估計MLE，一般似然函數定義爲似然概率的乘積： $P(Y | X)=\prod_{i=1}^{N} P\left(y_{i} | x_{i}\right)$
爲了便於分析，進行對數處理： $\sum_{i=1}^{N} \log P\left(y_{i} | x_{i}\right)$

接下來將損失函數代入經驗風險進行化簡： $\begin{aligned} R_{e m p}(f) &=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) \\ &=\frac{1}{N} \sum_{i=1}^{N}-\log P\left(y_{i} | x_{i}\right) \\ &=-\frac{1}{N} \sum_{i=1}^{N} \log P\left(y_{i} | x_{i}\right) \end{aligned}$
最小化經驗風險，即最大化 $\sum_{i=1}^{N} \log P\left(y_{i} | x_{i}\right)$ ，即等價於極大似然估計。

參考：
極大似然估計詳解
 貝葉斯估計詳解
 習題1.1
習題1.2

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

統計學習方法第一章習題答案

極大似然估計與貝葉斯估計

習題1.1

習題1.2

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

DCGAN生成二次元頭像（Pytorch）

1020 Delete At Most Two Characters (35 分)（C++）

PAT頂級目錄（C++）

爬取知乎表情包

WaveNet筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

統計學習方法 第一章習題答案

極大似然估計與貝葉斯估計

習題1.1

習題1.2

統計學習方法第一章習題答案