本系列为《模式识别与机器学习》的读书笔记。
一,二元变量
1,二项分布
考虑⼀个⼆元随机变量 x∈{0,1}。 例如,x 可能描述了扔硬币的结果,x=1 表⽰“正⾯”,x=0 表⽰反⾯。我们可以假设有⼀个损坏的硬币,这枚硬币正⾯朝上的概率未必等于反⾯朝上的概率。x=1 的概率被记作参数 μ,因此有:
p(x=1∣μ)=μ(2.1)
其中 0≤μ≤1 。x 的概率分布因此可以写成:
Bern(x∣μ)=μx(1−μ)1−x(2.2)
这被叫做伯努利分布(Bernoulli distribution
)。容易证明,这个分布是归⼀化的,并且均值和⽅差分别为:
E[x]=μ(2.3)
var[x]=μ(1−μ)(2.4)
如图 2.1: ⼆项分布关于 m 的函数的直⽅图,其中 N=10 且 μ=0.25。
![二项分布]()
假设我们有⼀个 x 的观测值的数据集 D={x1,…,xN}。假设每次观测都是独⽴地从 p(x∣μ) 中抽取的,因此可以构造关于 μ 的似然函数:
p(D∣μ)=n=1∏Np(xn∣μ)=n=1∏Nμxn(1−μ)1−xn(2.5)
其对数似然函数:
lnp(D∣μ)=n=1∑Nlnp(xn∣μ)=n=1∑N{xnlnμ+(1−xn)ln(1−μ)}(2.6)
在公式(2.6)中,令 lnp(D∣μ) 关于 μ 的导数等于零,就得到了最⼤似然的估计值,也被称为样本均值(sample mean
):
μML=N1n=1∑Nxn(2.7)
求解给定数据集规模 N 的条件下,x=1 的观测出现的数量 m 的概率分布。 这被称为⼆项分布 (binomial distribution
):
Bin(m∣N,μ)=(mN)μm(1−μ)N−m(2.8)
其中,
(mN)=(N−m)!m!N!(2.9)
二项分布 的均值和⽅差分别为:
E[m]=m=0∑NBin(m∣N,μ)=Nμ(2.10)
var[m]=m=0∑N(m−E[m])2Bin(m∣N,μ)=Nμ(1−μ)(2.11)
2,Beta
分布
首先,Gamma
函数的定义为:
Γ(x)≡∫0∞ux−1e−udu(2.12)
Gamma
函数具有如下性质:
1)Γ(x+1)=xΓ(x)
2)Γ(1)=1
3)当 n 为整数时,Γ(n+1)=n!
如果我们选择⼀个正⽐于 μ 和 (1−μ) 的幂指数的先验概率分布, 那么后验概率分布(正⽐于先验和似然函数的乘积)就会有着与先验分布相同的函数形式。这 个性质被叫做共轭性(conjugacy
)。
先验分布选择**Beta
分布定义为:
Beta(μ∣a,b)=Γ(a)Γ(b)Γ(a+b)μ(a−1)(1−μ)(b−1)(2.13)
其中参数 a 和 b 经常被称为超参数**(hyperparameter
),均值和⽅差分别为:
E[μ]=a+ba(2.14)
var[μ]=(a+b)2(a+b+1)ab(2.15)
把Beta
先验与⼆项似然函数相乘,然后归⼀化。只保留依赖于 μ 的因⼦,从而得到后验概率分布的形式为:
p(μ∣m,l,a,b)=Γ(m+a)Γ(l+b)Γ(m+a+l+b)μ(m+a−1)(1−μ)(l+b−1)(2.16)
其中 l=N−m。
如图2.2~2.5: 对于不同的超参数 a 和 b,公式(2.13)给出的Beta
分布 Beta(μ∣a,b) 关于 μ 的函数图像。
![a=0.1,b=0.1]()
![a=1,b=1]()
![a=2,b=3]()
![a-8,b=4]()
贝叶斯学习过程存在⼀个共有的属性:随着我们观测到越来越多的数据,后验概率表⽰的不确定性将会持续下降。
为了说明这⼀点,我们可以⽤频率学家的观点考虑贝叶斯学习问题。考虑⼀个⼀般的贝叶斯推断问题,参数为 θ ,并且我们观测到了⼀个数据集 D,由联合概率分布 p(θ,D) 描述,有:
Eθ[θ]=ED[Eθ[θ∣D]](2.17)
其中,
Eθ[θ]=∫p(θ)θdθ(2.18)
ED[Eθ[θ∣D]]=∫{∫θp(θ∣D)dθ}p(D)dD(2.19)
方差,
varθ[θ]=ED[var[θ∣D]]+varD[Eθ[θ∣D]](2.20)
二,多项式变量
1,多项式分布
“1-of-K ”表⽰法 : 变量被表⽰成⼀个 K 维向量 x,向量中的⼀个元素 xk 等于1,剩余的元素等于0。注意,这样的向量 x 满足 ∑k=1Kxk=1 ,如果我们⽤参数 μk 表⽰ xk=1 的概率,那么 x 的分布:
p(x∣μ)=k=1∏Kμkxk(2.21)
其中 μ=(μ1,…,μK)T , 参数 μk 要满⾜ μk≥0 和 ∑kμk=1 。
容易看出,这个分布是归⼀化的:
x∑p(x∣μ)=k=1∑Kμk=1(2.22)
并且,
E[x∣μ]=x∑p(x∣μ)x=(μ1,…,μK)T=μ(2.23)
现在考虑⼀个有 N 个独⽴观测值 x1,…,xN 的数据集 D。对应的似然函数的形式为:
p(D∣μ)=n=1∏Nk=1∏Kμkxnk=k=1∏Kμk(∑nxnk)=k=1∏Kμkmk(2.24)
看到似然函数对于 N 个数据点的依赖只是通过 K 个下⾯形式的量:
mk=n∑xnk(2.25)
它表⽰观测到 xk=1 的次数。这被称为这个分布的充分统计量(sufficient statistics
)。
通过拉格朗⽇乘数法容易求得最大似然函数:
μkML=Nmk(2.26)
考虑 m1,…,mK 在参数 μ 和观测总数 N 条件下的联合分布。根据公式(2.24),这个分布的形式为:
Mult(m1,…,mK∣μ,N)=(m1…mKN)k=1∏Kμkmk(2.27)
这被称为多项式分布(multinomial distribution
)。 归⼀化系数是把 N 个物体分成⼤⼩为 m1,…,mK 的 K 组的⽅案总数,定义为:
(m1…mKN)=m1!m2!…mK!N!(2.28)
其中,mk 满足以下限制 ∑k=1Kmk=N 。
2,狄利克雷分布
狄利克雷分布(Dirichlet distribution
)或多元Beta
分布(multivariate Beta distribution
)是一类在实数域以正单纯形(standard simplex
)为支撑集(support
)的高维连续概率分布,是 Beta
分布 在高维情形的推广 。狄利克雷分布是指数族分布之一,也是刘维尔分布(Liouville distribution
)的特殊形式,将狄利克雷分布的解析形式进行推广可以得到广义狄利克雷分布(generalized Dirichlet distribution
)和组合狄利克雷分布(Grouped Dirichlet distribution
)。
狄利克雷分布概率的归⼀化形式为:
Dir(μ∣α)=Γ(α1)…Γ(αK)Γ(α0)k=1∏Kμkαk−1(2.29)
其中,α0=∑k=1Kαk 。
如图 2.6~2.8: 在不同的参数 αk 的情况下,单纯形上的狄利克雷分布的图像。
![ak=0.1]()
![ak=1]()
![ak=10]()
如图2.9~2.11: 对于不同的 N 值,N 个均匀分布的均值的直⽅图。
![N=1]()
![N=10]()