【機器學習基礎】概率分佈之變量

本系列爲《模式識別與機器學習》的讀書筆記。

一,二元變量

1,二項分佈

考慮⼀個⼆元隨機變量 x{0,1}x \in \{0, 1\}。 例如,xx 可能描述了扔硬幣的結果,x=1x = 1 表⽰“正⾯”,x=0x = 0 表⽰反⾯。我們可以假設有⼀個損壞的硬幣,這枚硬幣正⾯朝上的概率未必等於反⾯朝上的概率。x=1x = 1 的概率被記作參數 μ\mu,因此有:
p(x=1μ)=μ(2.1) p(x=1|\mu) = \mu\tag{2.1}
其中 0μ10\le \mu\le 1xx 的概率分佈因此可以寫成:
Bern(xμ)=μx(1μ)1x(2.2) \text {Bern}(x|\mu) = \mu^{x}(1-\mu)^{1-x}\tag{2.2}
這被叫做伯努利分佈Bernoulli distribution)。容易證明,這個分佈是歸⼀化的,並且均值和⽅差分別爲:
E[x]=μ(2.3) \mathbb{E}[x] = \mu\tag{2.3}

var[x]=μ(1μ)(2.4) \text{var}[x] = \mu(1-\mu)\tag{2.4}

如圖 2.1: ⼆項分佈關於 mm 的函數的直⽅圖,其中 N=10N = 10μ=0.25\mu = 0.25
二項分佈
假設我們有⼀個 xx 的觀測值的數據集 D={x1,,xN}\mathcal{D} = \{x_1 ,\dots, x_N\}。假設每次觀測都是獨⽴地從 p(xμ)p(x | \mu) 中抽取的,因此可以構造關於 μ\mu 的似然函數:
p(Dμ)=n=1Np(xnμ)=n=1Nμxn(1μ)1xn(2.5) p(\mathcal{D}|\mu) = \prod_{n=1}^{N}p(x_{n}|\mu) = \prod_{n=1}^{N}\mu^{x_{n}}(1-\mu)^{1-x_{n}}\tag{2.5}
其對數似然函數:
lnp(Dμ)=n=1Nlnp(xnμ)=n=1N{xnlnμ+(1xn)ln(1μ)}(2.6) \ln p(\mathcal{D}|\mu) = \sum_{n=1}^{N}\ln p(x_{n}|\mu) = \sum_{n=1}^{N}\{ x^n \ln \mu + (1-x^n) \ln (1-\mu)\}\tag{2.6}
在公式(2.6)中,令 lnp(Dμ)\ln p(\mathcal{D}|\mu) 關於 μ\mu 的導數等於零,就得到了最⼤似然的估計值,也被稱爲樣本均值sample mean):
μML=1Nn=1Nxn(2.7) \mu_{ML} = \frac{1}{N} \sum_{n=1}^{N} x_{n}\tag{2.7}
求解給定數據集規模 NN 的條件下,x=1x = 1 的觀測出現的數量 mm 的概率分佈。 這被稱爲⼆項分佈binomial distribution):
Bin(mN,μ)=(Nm)μm(1μ)Nm(2.8) \text {Bin}(m|N, \mu) = \dbinom{N}{m} \mu^{m}(1-\mu)^{N-m}\tag{2.8}
其中,
(Nm)=N!(Nm)!m!(2.9) \dbinom{N}{m} = \frac{N!}{(N-m)!m!}\tag{2.9}
二項分佈 的均值和⽅差分別爲:
E[m]=m=0NBin(mN,μ)=Nμ(2.10) \mathbb{E}[m] = \sum_{m=0}^{N} \text{Bin}(m|N, \mu) = N\mu\tag{2.10}

var[m]=m=0N(mE[m])2Bin(mN,μ)=Nμ(1μ)(2.11) \text{var}[m] = \sum_{m=0}^{N} (m-\mathbb{E}[m])^{2} \text{Bin}(m|N, \mu) = N\mu(1-\mu)\tag{2.11}

2,Beta分佈

首先,Gamma函數的定義爲:
Γ(x)0ux1eudu(2.12) \Gamma(x) \equiv \int_{0}^{\infty} u^{x-1} e^{-u} \mathrm{d} u\tag{2.12}
Gamma函數具有如下性質:

1)Γ(x+1)=xΓ(x)\Gamma(x+1) = x \Gamma(x)
2)Γ(1)=1\Gamma(1)=1
3)當 nn 爲整數時,Γ(n+1)=n!\Gamma(n+1) = n!

如果我們選擇⼀個正⽐於 μ\mu(1μ)(1 − \mu) 的冪指數的先驗概率分佈, 那麼後驗概率分佈(正⽐於先驗和似然函數的乘積)就會有着與先驗分佈相同的函數形式。這 個性質被叫做共軛性(conjugacy
先驗分佈選擇**Beta分佈定義爲:
Beta(μa,b)=Γ(a+b)Γ(a)Γ(b)μ(a1)(1μ)(b1)(2.13) \text {Beta}(\mu | a,b) = \frac{\Gamma{(a+b)}}{\Gamma{(a)}\Gamma{(b)}} \mu^{(a-1)}(1-\mu)^{(b-1)}\tag{2.13}
其中參數 aabb 經常被稱爲
超參數**(hyperparameter),均值和⽅差分別爲:
E[μ]=aa+b(2.14) \mathbb{E}[\mu] = \frac{a}{a+b}\tag{2.14}

var[μ]=ab(a+b)2(a+b+1)(2.15) \text{var}[\mu] = \frac{ab}{(a+b)^{2}(a+b+1)}\tag{2.15}

Beta先驗與⼆項似然函數相乘,然後歸⼀化。只保留依賴於 μ\mu 的因⼦,從而得到後驗概率分佈的形式爲:
p(μm,l,a,b)=Γ(m+a+l+b)Γ(m+a)Γ(l+b)μ(m+a1)(1μ)(l+b1)(2.16) p(\mu | m, l, a,b) = \frac{\Gamma{(m+a+l+b)}}{\Gamma{(m+a)}\Gamma{(l+b)}} \mu^{(m+a-1)}(1-\mu)^{(l+b-1)}\tag{2.16}
其中 l=Nml = N − m

如圖2.2~2.5: 對於不同的超參數 aabb,公式(2.13)給出的Beta分佈 Beta(μa,b)\text{Beta}(\mu | a, b) 關於 μ\mu 的函數圖像。
a=0.1,b=0.1
a=1,b=1
a=2,b=3
a-8,b=4
貝葉斯學習過程存在⼀個共有的屬性:隨着我們觀測到越來越多的數據,後驗概率表⽰的不確定性將會持續下降。

爲了說明這⼀點,我們可以⽤頻率學家的觀點考慮貝葉斯學習問題。考慮⼀個⼀般的貝葉斯推斷問題,參數爲 θ\boldsymbol {\theta} ,並且我們觀測到了⼀個數據集 D\mathcal{D},由聯合概率分佈 p(θ,D)p(\boldsymbol {\theta}, \mathcal{D}) 描述,有:
Eθ[θ]=ED[Eθ[θD]](2.17) \mathbb{E}_{\boldsymbol {\theta}}[\boldsymbol {\theta}] = \mathbb{E}_{\mathcal{D}}[\mathbb{E}_{\boldsymbol {\theta}}[\boldsymbol {\theta}|\mathcal{D}]]\tag{2.17}
其中,
Eθ[θ]=p(θ)θdθ(2.18) \mathbb{E}_{\boldsymbol {\theta}}[\boldsymbol {\theta}] = \int p(\boldsymbol {\theta}) \boldsymbol {\theta} \mathrm{d} \boldsymbol {\theta}\tag{2.18}

ED[Eθ[θD]]={θp(θD)dθ}p(D)dD(2.19) \mathbb{E}_{\mathcal{D}}[\mathbb{E}_{\boldsymbol {\theta}}[\boldsymbol {\theta}|\mathcal{D}]] = \int \left \{ \int \boldsymbol {\theta}p(\boldsymbol {\theta}|\mathcal{D}) \mathrm{d} \boldsymbol {\theta} \right \} p(\mathcal{D})\mathrm{d} \mathcal{D}\tag{2.19}

方差,
varθ[θ]=ED[var[θD]]+varD[Eθ[θD]](2.20) \text{var}_{\boldsymbol {\theta}}[\boldsymbol {\theta}] = \mathbb{E}_{\mathcal{D}}[\text{var}[\boldsymbol {\theta}|\mathcal{D}]] + \text{var}_{\mathcal{D}} [\mathbb{E}_{\boldsymbol {\theta}}[\boldsymbol {\theta}|\mathcal{D}]]\tag{2.20}

二,多項式變量

1,多項式分佈

“1-of-K ”表⽰法 : 變量被表⽰成⼀個 KK 維向量 x\boldsymbol{x},向量中的⼀個元素 xkx_k 等於1,剩餘的元素等於0。注意,這樣的向量 x\boldsymbol{x} 滿足 k=1Kxk=1\sum_{k=1}^{K} x_k = 1 ,如果我們⽤參數 μk\mu_k 表⽰ xk=1x_k = 1 的概率,那麼 x\boldsymbol{x} 的分佈:
p(xμ)=k=1Kμkxk(2.21) p(\boldsymbol{x}|\boldsymbol{\mu}) = \prod_{k=1}^{K} \mu_{k}^{x_k}\tag{2.21}
其中 μ=(μ1,,μK)T\boldsymbol{\mu} = (\mu_1 ,\dots, \mu_K)^T , 參數 μk\mu_k 要滿⾜ μk0\mu_k \ge 0kμk=1\sum_{k} \mu_k = 1

容易看出,這個分佈是歸⼀化的:
xp(xμ)=k=1Kμk=1(2.22) \sum_{\boldsymbol {x}}p(\boldsymbol{x} | \boldsymbol{\mu}) = \sum_{k=1}^{K} \mu_k = 1\tag{2.22}
並且,
E[xμ]=xp(xμ)x=(μ1,,μK)T=μ(2.23) \mathbb{E}[\boldsymbol{x}|\boldsymbol{\mu}] = \sum_{\boldsymbol {x}}p(\boldsymbol{x} | \boldsymbol{\mu}) \boldsymbol{x} = (\mu_1 ,\dots, \mu_K)^T = \boldsymbol {\mu}\tag{2.23}
現在考慮⼀個有 NN 個獨⽴觀測值 x1,,xN\boldsymbol {x}_1 ,\dots, \boldsymbol {x}_N 的數據集 D\mathcal{D}。對應的似然函數的形式爲:
p(Dμ)=n=1Nk=1Kμkxnk=k=1Kμk(nxnk)=k=1Kμkmk(2.24) p(\mathcal{D}|\boldsymbol{\mu}) = \prod_{n=1}^{N} \prod_{k=1}^{K} \mu_{k}^{x_{nk}} = \prod_{k=1}^{K} \mu_{k}^{(\sum_{n}x_{nk})} = \prod_{k=1}^{K} \mu_{k}^{m_k}\tag{2.24}

看到似然函數對於 NN 個數據點的依賴只是通過 KK 個下⾯形式的量:
mk=nxnk(2.25) m_k = \sum_{n}x_{nk}\tag{2.25}

它表⽰觀測到 xk=1x_k = 1 的次數。這被稱爲這個分佈的充分統計量sufficient statistics)。

通過拉格朗⽇乘數法容易求得最大似然函數:
μkML=mkN(2.26) \mu_k^{ML} = \frac{m_k}{N}\tag{2.26}
考慮 m1,,mKm_1 ,\dots , m_K 在參數 μ\boldsymbol{\mu} 和觀測總數 NN 條件下的聯合分佈。根據公式(2.24),這個分佈的形式爲:
Mult(m1,,mKμ,N)=(Nm1mK)k=1Kμkmk(2.27) \text{Mult}(m_1 ,\dots , m_K | \boldsymbol{\mu}, N) = \dbinom{N}{m_1 \dots m_K}\prod_{k=1}^{K} \mu_{k}^{m_k}\tag{2.27}
這被稱爲多項式分佈multinomial distribution)。 歸⼀化係數是把 NN 個物體分成⼤⼩爲 m1,,mKm_1 ,\dots , m_KKK 組的⽅案總數,定義爲:
(Nm1mK)=N!m1!m2!mK!(2.28) \dbinom{N}{m_1 \dots m_K} = \frac{N!}{m_1!m_2! \dots m_K!}\tag{2.28}
其中,mkm_k 滿足以下限制 k=1Kmk=N\sum_{k=1}^{K} m_k = N

2,狄利克雷分佈

狄利克雷分佈Dirichlet distribution)或多元Beta分佈multivariate Beta distribution)是一類在實數域以正單純形(standard simplex)爲支撐集(support)的高維連續概率分佈,是 Beta分佈 在高維情形的推廣 。狄利克雷分佈是指數族分佈之一,也是劉維爾分佈Liouville distribution)的特殊形式,將狄利克雷分佈的解析形式進行推廣可以得到廣義狄利克雷分佈generalized Dirichlet distribution)和組合狄利克雷分佈Grouped Dirichlet distribution)。

狄利克雷分佈概率的歸⼀化形式爲:
Dir(μα)=Γ(α0)Γ(α1)Γ(αK)k=1Kμkαk1(2.29) \text{Dir}(\boldsymbol{\mu}|\boldsymbol{\alpha}) = \frac{\Gamma{(\alpha_{0})}}{\Gamma{(\alpha_{1})} \dots \Gamma{(\alpha_{K})}} \prod_{k=1}^{K}\mu_{k}^{\alpha_{k-1}}\tag{2.29}
其中,α0=k=1Kαk\alpha_{0}=\sum_{k=1}^{K} \alpha_{k}

如圖 2.6~2.8: 在不同的參數 αk\alpha_{k} 的情況下,單純形上的狄利克雷分佈的圖像。
ak=0.1
ak=1
ak=10
如圖2.9~2.11: 對於不同的 NN 值,NN 個均勻分佈的均值的直⽅圖。
N=1N=2 N=10

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章