邱錫鵬神經網絡與深度學習習題2-6和2-7解答byMahomet

(pdf版本:30September2019)

2-6:

(1)根據定義,極大似然估計應有:

argmax p(x|\mu,\sigma^2)=L(\mu,\sigma^2)=\prod^n_{i=1}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{1}{2\sigma^2}(x^{(i)}-\mu)^2)

因此,

ln L \propto \sum^n_{i=1}(x^{(i)}-\mu)^2

對其關於\mu求導並取0,可得

\mu^{ML}=\frac{1}{n}\sum^n_{i=1}x^{(i)}

 

(2)根據定義,最大後驗分佈應有:

p(\mu|x,\sigma^2)=\frac{p(\mu,x|\sigma^2)}{\sum_\mu p(x,\mu|\sigma^2)} \propto p(x|\mu,\sigma^2)p(\mu,\sigma^2)

所以,

\mu^{MAP}=argmax_\mu p(x|\mu,\sigma^2)p(\mu;\sigma^2)

而對乘積第二項,根據題目給的條件,

logp_\mu_p_{anterior}=log p(\mu_0,\sigma^2_0) \propto (\mu-\mu_0)^2

因此相比\mu^{ML},\mu^{MAP}多了一項\mu-\mu_0。

 

2-7:

我的理解是,當N足夠多時,人們預先指定的先驗分佈p(\mu;\sigma^2)就沒必要了,因爲前面一項p(x|\mu,\sigma^2)類似經驗誤差隨着N的增大而減小那樣,變得不再隨\mu的取值擾動而擾動。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章