統計學習方法 第一章習題答案

習題1涉及極大似然估計和貝葉斯估計,可以先看看書的第4章相關內容。

極大似然估計與貝葉斯估計

符號 含義
D 測試數據
θ\theta 待估計的參數
p(θ)p(\theta) 先驗概率
p(θD)p(\theta\mid D) 後驗概率
p(Dθ)p(D\mid\theta) 似然函數

對極大似然函數而言,即取使得p(Dθ)p(D\mid\theta)最大的θ\theta值。有公式p(θD)=p(Dθ)p(θ)p(D)p(\theta \mid D)=\frac{p(D \mid \theta) p(\theta)}{p(D)},而p(θ)p(\theta)p(D)p(D)都是確定的,只要最大化p(Dθ)=i=1np(xiθ)p(D \mid \theta)=\prod_{i=1}^{n} p\left(x_{i} \mid\theta\right)即可
而對於貝葉斯估計,先人爲假設θ\theta的分佈(先驗概率),利用期望求極大後驗概率,E(xD)=xxp(xD)dxE(x | D)=\int_{x} x p(x | D) d x

習題1.1

題目:說明伯努利模型的極大似然估計以及貝葉斯估計中的統計學習方法三要素。伯努利模型是定義在取值爲0與1的隨機變量上的概率分佈。假設觀測到伯努利模型n次獨立的數據生成結果,其中k次的結果爲1,這時可以用極大似然估計或貝葉斯估計來估計結果爲1的概率。

答:
模型:伯努利模型,即定義在取值爲0與1的隨機變量上的概率分佈。
策略:極大似然估計和貝葉斯估計的策略都是對數損失函數,貝葉斯估計使用的是結構風險最小化。
算法:極大似然估計所使用的算法是求取經驗風險函數的極小值,貝葉斯估計所使用的算法是求取參數的後驗分佈,然後計算其期望。

P(A=1)=θP(A=1) = \theta, 進行了n次實驗,其中有k次值爲1
方法一:極大似然估計
設似然函數爲L(θ)=i=1nP(Ai)=θk(1θ)nkL(\theta)=\prod_{i=1}^{n} P\left(A_{i}\right)=\theta^{k}(1-\theta)^{n-k}
取對數爲L(θ)=klnθ+(nk)ln(1θ)L(\theta)=k * ln\theta + (n-k) * ln(1-\theta)
對L求θ\theta導:L(θ)=kθnk1θL'(\theta)= \frac{k}{\theta} - \frac{n-k}{1-\theta}
令L’等於0,θ=kn\theta = \frac{k}{n}
方法二:貝葉斯估計
先將θ\theta看作一個變量,f(θ)f\left(\theta \right)表示θ\theta的先驗分佈,假設θ\theta服從於β(a,b)\beta(a,b)分佈(關於爲什麼假定爲β\beta分佈等問題可以參考文末鏈接),即f(θ)=Γ(a+b)Γ(a)+Γ(b)θa1(1θ)b1=1B(a,b)θa1(1θ)b1f\left(\theta \right) =\frac{\Gamma(a+b)}{\Gamma(a)+\Gamma(b)}\theta^{a-1}(1-\theta)^{b-1}=\frac{1}{B(a, b)} \theta^{a-1}(1-\theta)^{b-1}
其中Γ(x)=0tx1etdt\Gamma(x)=\int_{0}^{\infty} t^{x-1} e^{-t} d t
P(θA1,A2,,An)=P(A1,A2,Anθ)f(θ)P(A1,A2,,An)P\left(\theta | A_{1}, A_{2}, \ldots, A_{n}\right)=\frac{P\left(A_{1}, A_{2}, \ldots A_{n} | \theta\right) f(\theta)}{P\left(A_{1}, A_{2}, \ldots, A_{n}\right)}
同樣假設做了n次實驗,有有k次值爲1,有P(A1,A2,Anθ)=θk(1θ)nkP\left(A_{1}, A_{2}, \ldots A_{n} | \theta\right) = \theta^k(1-\theta)^{n-k}
P(θA1,A2,,An)P(A1,A2,Anθ)f(θ)θa+k1(1θ)nk+b1P\left(\theta | A_{1}, A_{2}, \ldots, A_{n}\right)\propto{P\left(A_{1}, A_{2}, \ldots A_{n} | \theta\right) f(\theta)}\propto\theta^{a+k-1}(1-\theta)^{n-k+b-1}
加上標準化,可以得到後驗分佈符合β(a+k,nk+b)\beta(a+k,n-k+b)分佈。
P(θA1,A2,,An)=Γ(a+b+n)Γ(a+k)+Γ(b+nk)θa+k1(1θ)nk+b1P\left(\theta | A_{1}, A_{2}, \ldots, A_{n}\right)=\frac{\Gamma(a+b+n)}{\Gamma(a+k)+\Gamma(b+n-k)}\theta^{a+k-1}(1-\theta)^{n-k+b-1}
P(A=1)P(A=1)的值爲上式的期望,即a+ka+b+n\frac{a+k}{a+b+n}
β(a,b)\beta(a,b)分佈的期望爲aa+b\frac{a}{a+b}

習題1.2

題目:通過經驗風險最小化推導極大似然估計.證明模型是條件概率分佈,當損失函數是對數損失函數時,經驗風險最小化等價於極大似然估計.

答:在證明前先理一下概念
①損失函數爲對數函數L(yi,f(xi))=logP(yixi)L\left(y_{i}, f\left(x_{i}\right)\right)=-\log P\left(y_{i} | x_{i}\right)
② 經驗風險最小化ERM是指,使得訓練集的平均損失最小,即Remp(f)=minfF1Ni=1NL(yi,f(xi))\begin{aligned} R_{e m p}(f) &=\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)\end{aligned}
③極大似然估計MLE,一般似然函數定義爲似然概率的乘積:P(YX)=i=1NP(yixi)P(Y | X)=\prod_{i=1}^{N} P\left(y_{i} | x_{i}\right)
爲了便於分析,進行對數處理:i=1NlogP(yixi)\sum_{i=1}^{N} \log P\left(y_{i} | x_{i}\right)

接下來將損失函數代入經驗風險進行化簡:Remp(f)=1Ni=1NL(yi,f(xi))=1Ni=1NlogP(yixi)=1Ni=1NlogP(yixi)\begin{aligned} R_{e m p}(f) &=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) \\ &=\frac{1}{N} \sum_{i=1}^{N}-\log P\left(y_{i} | x_{i}\right) \\ &=-\frac{1}{N} \sum_{i=1}^{N} \log P\left(y_{i} | x_{i}\right) \end{aligned}
最小化經驗風險,即最大化i=1NlogP(yixi)\sum_{i=1}^{N} \log P\left(y_{i} | x_{i}\right),即等價於極大似然估計。

參考:
極大似然估計詳解
貝葉斯估計詳解
習題1.1
習題1.2

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章