【机器学习基础】概率分布之变量

本系列为《模式识别与机器学习》的读书笔记。

一,二元变量

1,二项分布

考虑⼀个⼆元随机变量 x{0,1}x \in \{0, 1\}。 例如,xx 可能描述了扔硬币的结果,x=1x = 1 表⽰“正⾯”,x=0x = 0 表⽰反⾯。我们可以假设有⼀个损坏的硬币,这枚硬币正⾯朝上的概率未必等于反⾯朝上的概率。x=1x = 1 的概率被记作参数 μ\mu,因此有:
p(x=1μ)=μ(2.1) p(x=1|\mu) = \mu\tag{2.1}
其中 0μ10\le \mu\le 1xx 的概率分布因此可以写成:
Bern(xμ)=μx(1μ)1x(2.2) \text {Bern}(x|\mu) = \mu^{x}(1-\mu)^{1-x}\tag{2.2}
这被叫做伯努利分布Bernoulli distribution)。容易证明,这个分布是归⼀化的,并且均值和⽅差分别为:
E[x]=μ(2.3) \mathbb{E}[x] = \mu\tag{2.3}

var[x]=μ(1μ)(2.4) \text{var}[x] = \mu(1-\mu)\tag{2.4}

如图 2.1: ⼆项分布关于 mm 的函数的直⽅图,其中 N=10N = 10μ=0.25\mu = 0.25
二项分布
假设我们有⼀个 xx 的观测值的数据集 D={x1,,xN}\mathcal{D} = \{x_1 ,\dots, x_N\}。假设每次观测都是独⽴地从 p(xμ)p(x | \mu) 中抽取的,因此可以构造关于 μ\mu 的似然函数:
p(Dμ)=n=1Np(xnμ)=n=1Nμxn(1μ)1xn(2.5) p(\mathcal{D}|\mu) = \prod_{n=1}^{N}p(x_{n}|\mu) = \prod_{n=1}^{N}\mu^{x_{n}}(1-\mu)^{1-x_{n}}\tag{2.5}
其对数似然函数:
lnp(Dμ)=n=1Nlnp(xnμ)=n=1N{xnlnμ+(1xn)ln(1μ)}(2.6) \ln p(\mathcal{D}|\mu) = \sum_{n=1}^{N}\ln p(x_{n}|\mu) = \sum_{n=1}^{N}\{ x^n \ln \mu + (1-x^n) \ln (1-\mu)\}\tag{2.6}
在公式(2.6)中,令 lnp(Dμ)\ln p(\mathcal{D}|\mu) 关于 μ\mu 的导数等于零,就得到了最⼤似然的估计值,也被称为样本均值sample mean):
μML=1Nn=1Nxn(2.7) \mu_{ML} = \frac{1}{N} \sum_{n=1}^{N} x_{n}\tag{2.7}
求解给定数据集规模 NN 的条件下,x=1x = 1 的观测出现的数量 mm 的概率分布。 这被称为⼆项分布binomial distribution):
Bin(mN,μ)=(Nm)μm(1μ)Nm(2.8) \text {Bin}(m|N, \mu) = \dbinom{N}{m} \mu^{m}(1-\mu)^{N-m}\tag{2.8}
其中,
(Nm)=N!(Nm)!m!(2.9) \dbinom{N}{m} = \frac{N!}{(N-m)!m!}\tag{2.9}
二项分布 的均值和⽅差分别为:
E[m]=m=0NBin(mN,μ)=Nμ(2.10) \mathbb{E}[m] = \sum_{m=0}^{N} \text{Bin}(m|N, \mu) = N\mu\tag{2.10}

var[m]=m=0N(mE[m])2Bin(mN,μ)=Nμ(1μ)(2.11) \text{var}[m] = \sum_{m=0}^{N} (m-\mathbb{E}[m])^{2} \text{Bin}(m|N, \mu) = N\mu(1-\mu)\tag{2.11}

2,Beta分布

首先,Gamma函数的定义为:
Γ(x)0ux1eudu(2.12) \Gamma(x) \equiv \int_{0}^{\infty} u^{x-1} e^{-u} \mathrm{d} u\tag{2.12}
Gamma函数具有如下性质:

1)Γ(x+1)=xΓ(x)\Gamma(x+1) = x \Gamma(x)
2)Γ(1)=1\Gamma(1)=1
3)当 nn 为整数时,Γ(n+1)=n!\Gamma(n+1) = n!

如果我们选择⼀个正⽐于 μ\mu(1μ)(1 − \mu) 的幂指数的先验概率分布, 那么后验概率分布(正⽐于先验和似然函数的乘积)就会有着与先验分布相同的函数形式。这 个性质被叫做共轭性(conjugacy
先验分布选择**Beta分布定义为:
Beta(μa,b)=Γ(a+b)Γ(a)Γ(b)μ(a1)(1μ)(b1)(2.13) \text {Beta}(\mu | a,b) = \frac{\Gamma{(a+b)}}{\Gamma{(a)}\Gamma{(b)}} \mu^{(a-1)}(1-\mu)^{(b-1)}\tag{2.13}
其中参数 aabb 经常被称为
超参数**(hyperparameter),均值和⽅差分别为:
E[μ]=aa+b(2.14) \mathbb{E}[\mu] = \frac{a}{a+b}\tag{2.14}

var[μ]=ab(a+b)2(a+b+1)(2.15) \text{var}[\mu] = \frac{ab}{(a+b)^{2}(a+b+1)}\tag{2.15}

Beta先验与⼆项似然函数相乘,然后归⼀化。只保留依赖于 μ\mu 的因⼦,从而得到后验概率分布的形式为:
p(μm,l,a,b)=Γ(m+a+l+b)Γ(m+a)Γ(l+b)μ(m+a1)(1μ)(l+b1)(2.16) p(\mu | m, l, a,b) = \frac{\Gamma{(m+a+l+b)}}{\Gamma{(m+a)}\Gamma{(l+b)}} \mu^{(m+a-1)}(1-\mu)^{(l+b-1)}\tag{2.16}
其中 l=Nml = N − m

如图2.2~2.5: 对于不同的超参数 aabb,公式(2.13)给出的Beta分布 Beta(μa,b)\text{Beta}(\mu | a, b) 关于 μ\mu 的函数图像。
a=0.1,b=0.1
a=1,b=1
a=2,b=3
a-8,b=4
贝叶斯学习过程存在⼀个共有的属性:随着我们观测到越来越多的数据,后验概率表⽰的不确定性将会持续下降。

为了说明这⼀点,我们可以⽤频率学家的观点考虑贝叶斯学习问题。考虑⼀个⼀般的贝叶斯推断问题,参数为 θ\boldsymbol {\theta} ,并且我们观测到了⼀个数据集 D\mathcal{D},由联合概率分布 p(θ,D)p(\boldsymbol {\theta}, \mathcal{D}) 描述,有:
Eθ[θ]=ED[Eθ[θD]](2.17) \mathbb{E}_{\boldsymbol {\theta}}[\boldsymbol {\theta}] = \mathbb{E}_{\mathcal{D}}[\mathbb{E}_{\boldsymbol {\theta}}[\boldsymbol {\theta}|\mathcal{D}]]\tag{2.17}
其中,
Eθ[θ]=p(θ)θdθ(2.18) \mathbb{E}_{\boldsymbol {\theta}}[\boldsymbol {\theta}] = \int p(\boldsymbol {\theta}) \boldsymbol {\theta} \mathrm{d} \boldsymbol {\theta}\tag{2.18}

ED[Eθ[θD]]={θp(θD)dθ}p(D)dD(2.19) \mathbb{E}_{\mathcal{D}}[\mathbb{E}_{\boldsymbol {\theta}}[\boldsymbol {\theta}|\mathcal{D}]] = \int \left \{ \int \boldsymbol {\theta}p(\boldsymbol {\theta}|\mathcal{D}) \mathrm{d} \boldsymbol {\theta} \right \} p(\mathcal{D})\mathrm{d} \mathcal{D}\tag{2.19}

方差,
varθ[θ]=ED[var[θD]]+varD[Eθ[θD]](2.20) \text{var}_{\boldsymbol {\theta}}[\boldsymbol {\theta}] = \mathbb{E}_{\mathcal{D}}[\text{var}[\boldsymbol {\theta}|\mathcal{D}]] + \text{var}_{\mathcal{D}} [\mathbb{E}_{\boldsymbol {\theta}}[\boldsymbol {\theta}|\mathcal{D}]]\tag{2.20}

二,多项式变量

1,多项式分布

“1-of-K ”表⽰法 : 变量被表⽰成⼀个 KK 维向量 x\boldsymbol{x},向量中的⼀个元素 xkx_k 等于1,剩余的元素等于0。注意,这样的向量 x\boldsymbol{x} 满足 k=1Kxk=1\sum_{k=1}^{K} x_k = 1 ,如果我们⽤参数 μk\mu_k 表⽰ xk=1x_k = 1 的概率,那么 x\boldsymbol{x} 的分布:
p(xμ)=k=1Kμkxk(2.21) p(\boldsymbol{x}|\boldsymbol{\mu}) = \prod_{k=1}^{K} \mu_{k}^{x_k}\tag{2.21}
其中 μ=(μ1,,μK)T\boldsymbol{\mu} = (\mu_1 ,\dots, \mu_K)^T , 参数 μk\mu_k 要满⾜ μk0\mu_k \ge 0kμk=1\sum_{k} \mu_k = 1

容易看出,这个分布是归⼀化的:
xp(xμ)=k=1Kμk=1(2.22) \sum_{\boldsymbol {x}}p(\boldsymbol{x} | \boldsymbol{\mu}) = \sum_{k=1}^{K} \mu_k = 1\tag{2.22}
并且,
E[xμ]=xp(xμ)x=(μ1,,μK)T=μ(2.23) \mathbb{E}[\boldsymbol{x}|\boldsymbol{\mu}] = \sum_{\boldsymbol {x}}p(\boldsymbol{x} | \boldsymbol{\mu}) \boldsymbol{x} = (\mu_1 ,\dots, \mu_K)^T = \boldsymbol {\mu}\tag{2.23}
现在考虑⼀个有 NN 个独⽴观测值 x1,,xN\boldsymbol {x}_1 ,\dots, \boldsymbol {x}_N 的数据集 D\mathcal{D}。对应的似然函数的形式为:
p(Dμ)=n=1Nk=1Kμkxnk=k=1Kμk(nxnk)=k=1Kμkmk(2.24) p(\mathcal{D}|\boldsymbol{\mu}) = \prod_{n=1}^{N} \prod_{k=1}^{K} \mu_{k}^{x_{nk}} = \prod_{k=1}^{K} \mu_{k}^{(\sum_{n}x_{nk})} = \prod_{k=1}^{K} \mu_{k}^{m_k}\tag{2.24}

看到似然函数对于 NN 个数据点的依赖只是通过 KK 个下⾯形式的量:
mk=nxnk(2.25) m_k = \sum_{n}x_{nk}\tag{2.25}

它表⽰观测到 xk=1x_k = 1 的次数。这被称为这个分布的充分统计量sufficient statistics)。

通过拉格朗⽇乘数法容易求得最大似然函数:
μkML=mkN(2.26) \mu_k^{ML} = \frac{m_k}{N}\tag{2.26}
考虑 m1,,mKm_1 ,\dots , m_K 在参数 μ\boldsymbol{\mu} 和观测总数 NN 条件下的联合分布。根据公式(2.24),这个分布的形式为:
Mult(m1,,mKμ,N)=(Nm1mK)k=1Kμkmk(2.27) \text{Mult}(m_1 ,\dots , m_K | \boldsymbol{\mu}, N) = \dbinom{N}{m_1 \dots m_K}\prod_{k=1}^{K} \mu_{k}^{m_k}\tag{2.27}
这被称为多项式分布multinomial distribution)。 归⼀化系数是把 NN 个物体分成⼤⼩为 m1,,mKm_1 ,\dots , m_KKK 组的⽅案总数,定义为:
(Nm1mK)=N!m1!m2!mK!(2.28) \dbinom{N}{m_1 \dots m_K} = \frac{N!}{m_1!m_2! \dots m_K!}\tag{2.28}
其中,mkm_k 满足以下限制 k=1Kmk=N\sum_{k=1}^{K} m_k = N

2,狄利克雷分布

狄利克雷分布Dirichlet distribution)或多元Beta分布multivariate Beta distribution)是一类在实数域以正单纯形(standard simplex)为支撑集(support)的高维连续概率分布,是 Beta分布 在高维情形的推广 。狄利克雷分布是指数族分布之一,也是刘维尔分布Liouville distribution)的特殊形式,将狄利克雷分布的解析形式进行推广可以得到广义狄利克雷分布generalized Dirichlet distribution)和组合狄利克雷分布Grouped Dirichlet distribution)。

狄利克雷分布概率的归⼀化形式为:
Dir(μα)=Γ(α0)Γ(α1)Γ(αK)k=1Kμkαk1(2.29) \text{Dir}(\boldsymbol{\mu}|\boldsymbol{\alpha}) = \frac{\Gamma{(\alpha_{0})}}{\Gamma{(\alpha_{1})} \dots \Gamma{(\alpha_{K})}} \prod_{k=1}^{K}\mu_{k}^{\alpha_{k-1}}\tag{2.29}
其中,α0=k=1Kαk\alpha_{0}=\sum_{k=1}^{K} \alpha_{k}

如图 2.6~2.8: 在不同的参数 αk\alpha_{k} 的情况下,单纯形上的狄利克雷分布的图像。
ak=0.1
ak=1
ak=10
如图2.9~2.11: 对于不同的 NN 值,NN 个均匀分布的均值的直⽅图。
N=1N=2 N=10

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章