本系列爲《模式識別與機器學習》的讀書筆記。
一,二元變量
1,二項分佈
考慮⼀個⼆元隨機變量 x∈{0,1}。 例如,x 可能描述了扔硬幣的結果,x=1 表⽰“正⾯”,x=0 表⽰反⾯。我們可以假設有⼀個損壞的硬幣,這枚硬幣正⾯朝上的概率未必等於反⾯朝上的概率。x=1 的概率被記作參數 μ,因此有:
p(x=1∣μ)=μ(2.1)
其中 0≤μ≤1 。x 的概率分佈因此可以寫成:
Bern(x∣μ)=μx(1−μ)1−x(2.2)
這被叫做伯努利分佈(Bernoulli distribution
)。容易證明,這個分佈是歸⼀化的,並且均值和⽅差分別爲:
E[x]=μ(2.3)
var[x]=μ(1−μ)(2.4)
如圖 2.1: ⼆項分佈關於 m 的函數的直⽅圖,其中 N=10 且 μ=0.25。
假設我們有⼀個 x 的觀測值的數據集 D={x1,…,xN}。假設每次觀測都是獨⽴地從 p(x∣μ) 中抽取的,因此可以構造關於 μ 的似然函數:
p(D∣μ)=n=1∏Np(xn∣μ)=n=1∏Nμxn(1−μ)1−xn(2.5)
其對數似然函數:
lnp(D∣μ)=n=1∑Nlnp(xn∣μ)=n=1∑N{xnlnμ+(1−xn)ln(1−μ)}(2.6)
在公式(2.6)中,令 lnp(D∣μ) 關於 μ 的導數等於零,就得到了最⼤似然的估計值,也被稱爲樣本均值(sample mean
):
μML=N1n=1∑Nxn(2.7)
求解給定數據集規模 N 的條件下,x=1 的觀測出現的數量 m 的概率分佈。 這被稱爲⼆項分佈 (binomial distribution
):
Bin(m∣N,μ)=(mN)μm(1−μ)N−m(2.8)
其中,
(mN)=(N−m)!m!N!(2.9)
二項分佈 的均值和⽅差分別爲:
E[m]=m=0∑NBin(m∣N,μ)=Nμ(2.10)
var[m]=m=0∑N(m−E[m])2Bin(m∣N,μ)=Nμ(1−μ)(2.11)
2,Beta
分佈
首先,Gamma
函數的定義爲:
Γ(x)≡∫0∞ux−1e−udu(2.12)
Gamma
函數具有如下性質:
1)Γ(x+1)=xΓ(x)
2)Γ(1)=1
3)當 n 爲整數時,Γ(n+1)=n!
如果我們選擇⼀個正⽐於 μ 和 (1−μ) 的冪指數的先驗概率分佈, 那麼後驗概率分佈(正⽐於先驗和似然函數的乘積)就會有着與先驗分佈相同的函數形式。這 個性質被叫做共軛性(conjugacy
)。
先驗分佈選擇**Beta
分佈定義爲:
Beta(μ∣a,b)=Γ(a)Γ(b)Γ(a+b)μ(a−1)(1−μ)(b−1)(2.13)
其中參數 a 和 b 經常被稱爲超參數**(hyperparameter
),均值和⽅差分別爲:
E[μ]=a+ba(2.14)
var[μ]=(a+b)2(a+b+1)ab(2.15)
把Beta
先驗與⼆項似然函數相乘,然後歸⼀化。只保留依賴於 μ 的因⼦,從而得到後驗概率分佈的形式爲:
p(μ∣m,l,a,b)=Γ(m+a)Γ(l+b)Γ(m+a+l+b)μ(m+a−1)(1−μ)(l+b−1)(2.16)
其中 l=N−m。
如圖2.2~2.5: 對於不同的超參數 a 和 b,公式(2.13)給出的Beta
分佈 Beta(μ∣a,b) 關於 μ 的函數圖像。
貝葉斯學習過程存在⼀個共有的屬性:隨着我們觀測到越來越多的數據,後驗概率表⽰的不確定性將會持續下降。
爲了說明這⼀點,我們可以⽤頻率學家的觀點考慮貝葉斯學習問題。考慮⼀個⼀般的貝葉斯推斷問題,參數爲 θ ,並且我們觀測到了⼀個數據集 D,由聯合概率分佈 p(θ,D) 描述,有:
Eθ[θ]=ED[Eθ[θ∣D]](2.17)
其中,
Eθ[θ]=∫p(θ)θdθ(2.18)
ED[Eθ[θ∣D]]=∫{∫θp(θ∣D)dθ}p(D)dD(2.19)
方差,
varθ[θ]=ED[var[θ∣D]]+varD[Eθ[θ∣D]](2.20)
二,多項式變量
1,多項式分佈
“1-of-K ”表⽰法 : 變量被表⽰成⼀個 K 維向量 x,向量中的⼀個元素 xk 等於1,剩餘的元素等於0。注意,這樣的向量 x 滿足 ∑k=1Kxk=1 ,如果我們⽤參數 μk 表⽰ xk=1 的概率,那麼 x 的分佈:
p(x∣μ)=k=1∏Kμkxk(2.21)
其中 μ=(μ1,…,μK)T , 參數 μk 要滿⾜ μk≥0 和 ∑kμk=1 。
容易看出,這個分佈是歸⼀化的:
x∑p(x∣μ)=k=1∑Kμk=1(2.22)
並且,
E[x∣μ]=x∑p(x∣μ)x=(μ1,…,μK)T=μ(2.23)
現在考慮⼀個有 N 個獨⽴觀測值 x1,…,xN 的數據集 D。對應的似然函數的形式爲:
p(D∣μ)=n=1∏Nk=1∏Kμkxnk=k=1∏Kμk(∑nxnk)=k=1∏Kμkmk(2.24)
看到似然函數對於 N 個數據點的依賴只是通過 K 個下⾯形式的量:
mk=n∑xnk(2.25)
它表⽰觀測到 xk=1 的次數。這被稱爲這個分佈的充分統計量(sufficient statistics
)。
通過拉格朗⽇乘數法容易求得最大似然函數:
μkML=Nmk(2.26)
考慮 m1,…,mK 在參數 μ 和觀測總數 N 條件下的聯合分佈。根據公式(2.24),這個分佈的形式爲:
Mult(m1,…,mK∣μ,N)=(m1…mKN)k=1∏Kμkmk(2.27)
這被稱爲多項式分佈(multinomial distribution
)。 歸⼀化係數是把 N 個物體分成⼤⼩爲 m1,…,mK 的 K 組的⽅案總數,定義爲:
(m1…mKN)=m1!m2!…mK!N!(2.28)
其中,mk 滿足以下限制 ∑k=1Kmk=N 。
2,狄利克雷分佈
狄利克雷分佈(Dirichlet distribution
)或多元Beta
分佈(multivariate Beta distribution
)是一類在實數域以正單純形(standard simplex
)爲支撐集(support
)的高維連續概率分佈,是 Beta
分佈 在高維情形的推廣 。狄利克雷分佈是指數族分佈之一,也是劉維爾分佈(Liouville distribution
)的特殊形式,將狄利克雷分佈的解析形式進行推廣可以得到廣義狄利克雷分佈(generalized Dirichlet distribution
)和組合狄利克雷分佈(Grouped Dirichlet distribution
)。
狄利克雷分佈概率的歸⼀化形式爲:
Dir(μ∣α)=Γ(α1)…Γ(αK)Γ(α0)k=1∏Kμkαk−1(2.29)
其中,α0=∑k=1Kαk 。
如圖 2.6~2.8: 在不同的參數 αk 的情況下,單純形上的狄利克雷分佈的圖像。
如圖2.9~2.11: 對於不同的 N 值,N 個均勻分佈的均值的直⽅圖。