第4章的習題與習題1.1有些相似,建議兩章一起看,關於極大似然估計和貝葉斯估計我在第一章的習題中講解了,可以先看看第一章的解答。
第一章習題是在伯努利試驗中做貝葉斯估計時,採用的是β分佈,但是本章是多個結果的試驗,例如扔色子、多分類任務,此時需使用狄利克雷分佈。
習題4.1
題目:用極大似然估計法推出樸素貝葉斯法中的概率估計公式(4.8)及公式(4.9)。
公式4.8
P(Y=ck)=N∑i=1NI(yi=ck),k=1,2,…,K
其中I爲指示函數,y=ck時爲1,否則爲0,在書的第10頁有介紹。
設P(Y=ck)=θ,進行N次實驗,有n次Y=ck.
即n=∑i=1NI(yi=ck)
P(Y=ck) |
P(Y̸=ck) |
θ |
1−θ |
則有L(θ)=θn⋅(1−θ)N−n
一般取對數作爲似然函數L(θ)=n⋅logθ+(N−n)⋅log(1−θ)
求導L′(θ)=n⋅θ1+(N−n)⋅1−θ1
令L′=0,有θ=Nn=N∑i=1NI(yi=ck)
得證
公式4.9
P(X(j)=ajl∣Y=ck)=∑i=1NI(yi=ck)∑i=1NI(xi(j)=ajl,yi=ck)
證明過程類似,設P(X(j)=ajl∣Y=ck)=θ,進行了N次實驗,有n次Y=ck,有m次Y=ck,X(j)=ajl
即n=∑i=1NI(yi=ck),m=∑i=1NI(xi(j)=ajl,yi=ck)
有L(θ)=θm⋅(1−θ)n−m
取對數L(θ)=m⋅logθ+(n−m)⋅log(1−θ)
求導L′(θ)=m⋅θ1+(n−m)⋅1−θ1
令L′=0,有θ=nm=∑i=1NI(yi=ck)∑i=1NI(xi(j)=ajl,yi=ck)
得證
習題4.2
用貝葉斯估計法推出樸素貝葉斯法中的概率估計公式(4.10)及公式(4.11)。
與習題4.1類似,假設進行了N次實驗,有ni次Y=ci,有mi次Y=ci,X(j)=ajl
即ni=∑i=1NI(yi=ci),mi=∑i=1NI(xi(j)=ajl,yi=ci)
公式4.11
Pλ(Y=ck)=N+Kλ∑i=1NI(yi=ck)+λ
假設Pλ(Y=ci)=θi,其中θi服從參數爲αi的狄利克雷分佈。
即有f(θ1,⋯,θK∣α1,…,αk)=B(α1,⋯,αK)1∏i=1Kθiαi−1
與極大似然估計類似,有P(N∣θ1,⋯,θK)=θ1n1θ2n2...θKnK=∏i=1Kθini
P(θ1,⋯,θK∣N)∝P(N∣θ1,⋯,θK)P(θ1,⋯,θk)∝∏i=1Kθiαi−1∏i=1Kθini∝∏i=1Kθiαi−1+ni
所以有後驗概率P(θ1,⋯,θk∣N)服從於狄利克雷分佈
Pλ(Y=ci)取θi的期望E(θi)=N+∑j=1k(αj)ni+αi,若假設θi服從參數爲λ的狄利克雷分佈,即α1=α2=...=αk=λ,則有E(θi)=N+K∗λ∑i=1NI(yi=ci)+λ
得證
公式4.10
Pλ(X(j)=ajl∣Y=ck)=∑i=1NI(yi=ck)+Sjλ∑i=1NI(xi(j)=aj,yi=ck)+λ,其中Sj表示第j個特徵的取值個數
證明過程類似,知識參數有點變動,設P(X(j)=ajl∣Y=ci)=θi,θi服從於參數爲αi的狄利克雷分佈。
即有f(θ1,⋯,θSj∣α1,…,αSj)=B(α1,⋯,αSj)1∏i=1Sjθiαi−1
同理P(n∣θ1,⋯,θk)=θ1m1θ2m2...θKmK=∏i=1Sjθimi
P(θ1,⋯,θSj∣n)∝P(n∣θ1,⋯,θSj)P(θ1,⋯,θSj)∝∏i=1Sjθiαi−1∏i=1Sjθimi∝∏i=1Sjθiαi−1+mi
所以有後驗概率P(θ1,⋯,θSj∣n)服從於狄利克雷分佈
Pλ(X(j)=ajl∣Y=ck)取θi的期望E(θi)=n+∑j=1Sj(αj)mj+αi,若假設θi服從參數爲λ的狄利克雷分佈,即α1=α2=...=αSj=λ,則有E(θi)=∑i=1NI(yi=ci)+Sj∗λ∑i=1NI(xi(j)=ajl,yi=ci)+λ
參考
極大似然估計與貝葉斯估計(強推,博主講得很詳細)
狄利克雷分佈與貝葉斯分佈分佈
第4章習題