【机器学习基础】概率分布之高斯分布

本系列为《模式识别与机器学习》的读书笔记。

一,多元高斯分布

考虑⾼斯分布的⼏何形式,⾼斯对于 x\boldsymbol{x} 的依赖是通过下⾯形式的⼆次型:
Δ2=(xμ)TΣ1(xμ)(2.30) \Delta^{2} = (\boldsymbol{x} - \boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x} - \boldsymbol{\mu})\tag{2.30}
其中,Δ\Delta 被叫做 μ\boldsymbol{\mu}x\boldsymbol{x} 之间的马⽒距离Mahalanobis distance)。 当 Σ\boldsymbol{\Sigma} 是单位矩阵时,就变成了欧式距离。对于 x\boldsymbol{x} 空间中这个⼆次型是常数的曲⾯,⾼斯分布也是常数。

现在考虑协⽅差矩阵特征向量⽅程
Σμi=λiμi(2.31) \boldsymbol{\Sigma} \boldsymbol{\mu}_i = \lambda_{i} \boldsymbol{\mu}_{i}\tag{2.31}
其中 i=1,,Di = 1,\dots , D。由于 Σ\boldsymbol{\Sigma}实对称矩阵,因此它的特征值也是实数,并且特征向量可以被选成单位正交的,即:
μiTμj=Iij(2.32) \boldsymbol{\mu}_{i}^{T} \boldsymbol{\mu}_{j} = I_{ij}\tag{2.32}

其中 IijI_{ij} 是单位矩阵的第 i,ji, j 个元素,满⾜:
Iij={1i=j0(2.33) I_{i j}=\left\{\begin{array}{l}{1,如果 i=j} \\ {0,其他情况}\end{array}\right. \tag{2.33}
协⽅差矩阵 Σ\boldsymbol{\Sigma} 可以表⽰成特征向量的展开的形式:
Σ=i=1DλiμiμiT(2.34) \boldsymbol{\Sigma} = \sum_{i=1}^{D} \lambda_i \boldsymbol{\mu}_{i}\boldsymbol{\mu}_{i}^{T}\tag{2.34}
协⽅差矩阵的逆矩阵 Σ1\boldsymbol{\Sigma}^{-1} 可以表⽰成特征向量的展开的形式:
Σ1=i=1D1λiμiμiT(2.35) \boldsymbol{\Sigma}^{-1} = \sum_{i=1}^{D} \frac{1}{\lambda_i} \boldsymbol{\mu}_{i}\boldsymbol{\mu}_{i}^{T}\tag{2.35}
⼆次型公式(2.30)即可表示为:
Δ2=i=1Dyi2λi(2.36) \Delta^{2} = \sum_{i=1}^{D} \frac{y_{i}^{2}}{\lambda_{i}}\tag{2.36}
其中,yi2=uiT(xμ)y_{i}^{2} = \boldsymbol{u_i^T} (\boldsymbol{x} - \boldsymbol{\mu})

{yi}\{y_i\} 表⽰成单位正交向量 μi\boldsymbol{\mu_i} 关于原始的 xix_i 座标经过平移和旋转后形成的新的座标系。定义向量 y=(y1,,yD)T\boldsymbol{y} = (y_1,\dots, y_D)^T ,即有:
y=U(xμ)(2.37) \boldsymbol {y} = \boldsymbol{U} (\boldsymbol{x} - \boldsymbol{\mu})\tag{2.37}
其中 U\boldsymbol{U} 是⼀个矩阵,它的⾏是向量 uiT\boldsymbol{u}_{i}^{T} 。从公式(2.32)可以看出 U\boldsymbol{U} 是⼀个正交矩阵, 即它满⾜性质 UUT=I\boldsymbol{U}\boldsymbol{U}^T = \boldsymbol{I} ,因此也满⾜ UTU=I\boldsymbol{U}^T \boldsymbol{U} = \boldsymbol{I} ,其中 I\boldsymbol{I} 是单位矩阵。

⼀个特征值严格⼤于零的矩阵被称为正定(positive definite)矩阵。偶尔遇到⼀个或者多个特征值为零的⾼斯分布,那种情况下分布是奇异的,被限制在 了⼀个低维的⼦空间中。如果所有的特征值都是⾮负的,那么这个矩阵被称为半正定(positive semidefine)矩阵

如图2.12,红⾊曲线表⽰⼆维空间 x=(x1,x2)\boldsymbol{x} = (x_1 , x_2) 的⾼斯分布的常数概率密度的椭圆⾯, 它表⽰的概率密度为 exp(12)\exp(−\frac{1}{2}),值是在 x=μ\boldsymbol{x} = \boldsymbol{\mu} 处计算的。椭圆的轴由协⽅差矩阵的特征向量 μi\mu_i 定义,对应的特征值为 λi\lambda_i
椭圆面
现在考虑在由 yiy_i 定义的新座标系下⾼斯分布的形式。 从 x\boldsymbol{x} 座标系到 y\boldsymbol{y} 座标系, 我们有⼀ 个 Jacobian矩阵 J\boldsymbol{J} ,它的元素为:
Jij=xijj=Uij(2.38) \boldsymbol{J}_{ij} = \frac{\partial {x_i}}{\partial {j_j}} = U_{ij}\tag{2.38}

其中 UjiU_{ji} 是矩阵 UT\boldsymbol{U}^T 的元素。使⽤矩阵 U\boldsymbol{U} 的单位正交性质,我们看到 Jacobian矩阵 ⾏列式的平⽅为:
J2=UT2=UTU=UTU=I=1(2.39) | \boldsymbol{J}^{2} | = |\boldsymbol{U}^{T}|^{2} = |\boldsymbol{U}^{T}||\boldsymbol{U}| = |\boldsymbol{U}^{T}\boldsymbol{U}| = |\boldsymbol{I}| = 1\tag{2.39}
从而可知,J=1|\boldsymbol{J}|=1 ,并且,⾏列式 Σ|\boldsymbol{\Sigma}| 的协⽅差矩阵可以写成特征值的乘积,因此:
Σ12=j=1Dλj12(2.40) |\boldsymbol{\Sigma}|^{\frac{1}{2}} = \prod_{j=1}^{D} \lambda_{j}^{\frac{1}{2}}\tag{2.40}
因此在 y\boldsymbol{y} 座标系中,⾼斯分布的形式为:
p(y)=p(x)J=j=1D1(2πλj)12exp{yi22λj}(2.41) p(\boldsymbol{y}) = p(\boldsymbol{x})|\boldsymbol{J}| = \prod_{j=1}^{D} \frac{1}{(2 \pi \lambda_{j})^{\frac{1}{2}}} \exp \left \{- \frac{y_{i}^2}{2\lambda_j} \right \}\tag{2.41}

这是 DD 个独⽴⼀元⾼斯分布的乘积。

y\boldsymbol{y} 座标系中,概率分布的积分为:
p(y)dy=j=1D1(2πλj)12exp{yi22λj}dyj=1(2.42) \int p(\boldsymbol{y}) \mathrm{d} \boldsymbol{y} = \prod_{j=1}^{D} \int_{-\infty}^{\infty} \frac{1}{(2 \pi \lambda_{j})^{\frac{1}{2}}} \exp \left \{- \frac{y_{i}^2}{2\lambda_j} \right \} \mathrm{d} y_j = 1\tag{2.42}
⾼斯分布x\boldsymbol{x} 的期望为:
E[x]=1(2π)D21Σ12exp{12(xμ)TΣ1(xμ)}xdx=1(2π)D21Σ12exp{12zTΣ1z}(z+μ)dz(2.43) \begin{aligned} \mathbb{E}[\boldsymbol{x}] &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right\} \boldsymbol{x} \mathrm{d} \boldsymbol{x} \\ &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}\boldsymbol{z}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{z}\right\} (\boldsymbol{z+\mu}) \mathrm{d} \boldsymbol{z} \end{aligned}\tag{2.43}
其中,z=xμ\boldsymbol{z = x - \mu} 。注意到指数位置是 z\boldsymbol{z} 的偶函数,并且由于积分区间为 (,)(−\infty, \infty),因此在因⼦ (z+μ)(\boldsymbol{z + \mu}) 中的 z\boldsymbol{z} 中的项会由于对称性变为零。因此 E[x]=μ\mathbb{E}[\boldsymbol{x}] = \boldsymbol{\mu} 。称 μ\boldsymbol{\mu} 为⾼斯分布的均值

现在考虑⾼斯分布的⼆阶矩。对于多元⾼斯分布,有 D2D^2 个由 E[xixj]\mathbb{E}[x_i x_j] 给出的⼆阶矩,可以聚集在⼀起组成矩阵 E[xxT]\mathbb{E}[\boldsymbol{x}\boldsymbol{x}^T ]
E[xxT]=1(2π)D21Σ12exp{12(xμ)TΣ1(xμ)}xxTdx=1(2π)D21Σ12exp{12zTΣ1z}(z+μ)(z+μ)Tdz(2.44) \begin{aligned} \mathbb{E}[\boldsymbol{x}\boldsymbol{x}^{T}] &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right\} \boldsymbol{x} \boldsymbol{x}^{T}\mathrm{d} \boldsymbol{x} \\ &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}\boldsymbol{z}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{z}\right\} (\boldsymbol{z+\mu})(\boldsymbol{z+\mu})^{T} \mathrm{d} \boldsymbol{z} \end{aligned}\tag{2.44}
其中,z=xμ\boldsymbol{z = x - \mu}z=j=1Dyiuj\boldsymbol{z} = \sum_{j=1}^{D} y_i \boldsymbol{u_j}yi=ujTzy_i = \boldsymbol{u_j}^{T}\boldsymbol{z}

由此可以推导出:
E[xxT]=μuT+Σ(2.45) \mathbb{E}[\boldsymbol{x}\boldsymbol{x}^{T}] = \boldsymbol{\mu}\boldsymbol{u}^{T} + \boldsymbol{\Sigma}\tag{2.45}
随机变量 x\boldsymbol{x}协⽅差covariance),定义为:
var[x]=E[(xE[x])(xE[x])T](2.46) \text{var}[\boldsymbol{x}] = \mathbb{E}[(\boldsymbol{x} - \mathbb{E}[\boldsymbol{x}])(\boldsymbol{x} - \mathbb{E}[\boldsymbol{x}])^{T}]\tag{2.46}
对于⾼斯分布这⼀特例,我们可以使⽤ E[x]=μ\mathbb{E}[\boldsymbol{x}] = \boldsymbol{\mu} 以及公式(2.45)的结果,得到:
var[x]=Σ(2.47) \text{var}[\boldsymbol{x}] = \boldsymbol{\Sigma}\tag{2.47}
由于参数 Σ\boldsymbol{\Sigma} 公式了⾼斯分布下 x\boldsymbol{x} 的协⽅差,因此它被称为协⽅差矩阵

二,条件⾼斯分布

多元⾼斯分布的⼀个重要性质:如果两组变量是联合⾼斯分布,那么以⼀组变量为条件, 另⼀组变量同样是⾼斯分布。

假设 x\boldsymbol{x} 是⼀个服从⾼斯分布 N(xμ,Σ)\mathcal{N}(\boldsymbol{x} | \boldsymbol{\mu}, \mathbf{\Sigma})DD 维向量。我们把 x\boldsymbol{x} 划分成两个不相交的⼦集 xa\boldsymbol{x}_axb\boldsymbol{x}_b 。 不失⼀般性, 令 xa\boldsymbol{x}_ax\boldsymbol{x} 的前 MM 个分量, 令 xb\boldsymbol{x}_b 为剩余的 DMD − M 个分量,因此
x=(xaxb) \boldsymbol{x} = \dbinom{\boldsymbol{x}_a}{\boldsymbol{x}_b}
同理,对应的对均值向量 μ\boldsymbol{\mu} 的划分,即
μ=(μaμb) \boldsymbol{\mu} = \dbinom{\boldsymbol{\mu}_a}{\boldsymbol{\mu}_b}
协⽅差矩阵 Σ\boldsymbol{\Sigma} 为:
Σ=(ΣaaΣabΣbaΣbb)(2.48) \boldsymbol{\Sigma} = \begin{pmatrix} \boldsymbol{\Sigma}_{aa} & \boldsymbol{\Sigma}_{ab} \\ \boldsymbol{\Sigma}_{ba} & \boldsymbol{\Sigma}_{bb} \end{pmatrix}\tag{2.48}
注意,协⽅差矩阵的对称性 ΣT=Σ\boldsymbol{\Sigma} ^T= \boldsymbol{\Sigma} 表明 Σaa\boldsymbol{\Sigma}_{aa}Σbb\boldsymbol{\Sigma}_{bb} 也是对称的,⽽ Σba=ΣabT\boldsymbol{\Sigma}_{ba} = \boldsymbol{\Sigma}_{ab}^{T}

在许多情况下,使⽤协⽅差矩阵的逆矩阵⽐较⽅便,也叫精度矩阵(precision matrix,即:
ΛΣ1(2.49) \boldsymbol{\Lambda} \equiv \boldsymbol{\Sigma}^{-1}\tag{2.49}
精度矩阵的划分形式
Λ=(ΛaaΛabΛbaΛbb) \boldsymbol{\Lambda} = \begin{pmatrix} \boldsymbol{\Lambda}_{aa} & \boldsymbol{\Lambda}_{ab} \\ \boldsymbol{\Lambda}_{ba} & \boldsymbol{\Lambda}_{bb} \end{pmatrix}
关于分块矩阵的逆矩阵的恒等式:
(ABCD)1=(MMBD1D1CMD1+CMBD1)(2.50) \begin{pmatrix} \boldsymbol{A} & \boldsymbol{B} \\ \boldsymbol{C} & \boldsymbol{D} \end{pmatrix}^{-1} = \begin{pmatrix} \boldsymbol{M} & \boldsymbol{-MBD^{-1}} \\ \boldsymbol{-D^{-1}CM} & \boldsymbol{D^{-1}+CMBD^{-1}} \end{pmatrix}\tag{2.50}
其中, M=(ABD1C)1\boldsymbol{M = (A-BD^{-1}C)^{-1}}M1\boldsymbol{M}^{-1} 被称为公式(2.50)左侧矩阵关于⼦矩阵 D\boldsymbol{D}舒尔补Schur complement)。

由以上公式和相关结论可以推导出条件概率分布 p(xaxb)p(\boldsymbol{x}_a | \boldsymbol{x}_b)均值协⽅差的表达式:
μab=μa+ΣabΣbb1(xbμb)(2.51) \boldsymbol{\mu}_{a|b} = \boldsymbol{\mu}_a + \boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}(\boldsymbol{x}_b-\boldsymbol{\mu}_b)\tag{2.51}

Σab=ΣaaΣabΣbb1Σba(2.52) \boldsymbol{\Sigma}_{a|b} = \boldsymbol{\Sigma}_{aa} - \boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}\boldsymbol{\Sigma}_{ba}\tag{2.52}

三,边缘⾼斯分布

对于边缘高斯分布
p(xa)=p(xa,xb)dxb(2.53) p(\boldsymbol{x}_a) = \int p(\boldsymbol{x}_a, \boldsymbol{x}_b) \mathrm{d} \boldsymbol{x}_b\tag{2.53}
同条件高斯分布一样,可以推导出边缘概率分布 p(xa)p(\boldsymbol{x}_a)均值协⽅差的表达式:
Σa=(ΛaaΛabΛbb1Λba)1(2.54) \boldsymbol{\Sigma}_{a} = (\boldsymbol{\Lambda}_{aa} - \boldsymbol{\Lambda}{ab}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba})^{-1}\tag{2.54}

E[xa]=μa(2.55) \mathbb{E}[\boldsymbol{x}_a] = \boldsymbol{\mu}_a\tag{2.55}

cov[xa]=Σaa(2.56) \text{cov}[\boldsymbol{x}_a] = \boldsymbol{\Sigma}_{aa}\tag{2.56}

如图2.13,两个变量上的⾼斯概率分布 p(xa,xb)p(x_a , x_b) 的轮廓线。
⾼斯概率分布轮廓线
如图2.14,边缘概率分布 p(xa)p(x_a)(蓝⾊曲线)和 xb=0.7x_b = 0.7 的条件概率分布 p(xaxb)p(x_a | x_b)(红⾊曲线)。
边缘概率分布和条件概率分布

四,⾼斯变量的贝叶斯定理

令边缘概率分布和条件概率分布的形式:
p(x)=N(xμ,Λ1)(2.57) p(\boldsymbol{x}) = \mathcal{N}(\boldsymbol{x} |\boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1})\tag{2.57}

p(yx)=N(yAx+b,L1)(2.58) p(\boldsymbol{y} | \boldsymbol{x}) = \mathcal{N}(\boldsymbol{y} |\boldsymbol{Ax+b}, \boldsymbol{L}^{-1})\tag{2.58}

其中,μ\boldsymbol{\mu}A\boldsymbol{A}b\boldsymbol{b} 是控制均值的参数,Λ\boldsymbol{\Lambda}L\boldsymbol{L} 是精度矩阵。如果 x\boldsymbol{x} 的维度为 MMy\boldsymbol{y} 的维度为 DD,那么矩阵 AA 的⼤⼩为 D×MD \times M

⾸先,我们寻找 x\boldsymbol{x}y\boldsymbol{y} 的联合分布的表达式。令
z=(xy) \boldsymbol{z} = \dbinom{\boldsymbol{x}}{\boldsymbol{y}}
然后考虑联合概率分布的对数:
lnp(z)=lnp(x)+lnp(yx)=12(xμ)TΛ(xμ)12(yAxb)TL(yAxb)+(2.59) \begin{aligned}\ln p(\boldsymbol{z}) &= \ln p(\boldsymbol{x}) + \ln p(\boldsymbol{y} | \boldsymbol{x}) \\ &= -\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \Lambda (\boldsymbol{x} - \boldsymbol{\mu}) \\ &-\frac{1}{2}(\boldsymbol{y} - \boldsymbol{Ax} - \boldsymbol{b})^{T} \boldsymbol{L} (\boldsymbol{y}-\boldsymbol{Ax}-\boldsymbol{b}) + 常数 \end{aligned} \tag{2.59}
可以推导出,z\boldsymbol{z} 上的⾼斯分布的精度矩阵(协⽅差的逆矩阵)为:
R=(Λ+ATLAATLLAL) \boldsymbol{R} = \begin{pmatrix} \boldsymbol{\Lambda + A^{T}LA} & \boldsymbol{-A^{T}L} \\ \boldsymbol{-LA} & \boldsymbol{L} \end{pmatrix}
从而,z\boldsymbol{z} 上的⾼斯分布的均值协⽅差的表达式:
cov[z]=R1=(Λ1Λ1ATAΛ1L1+AΛ1AT)(2.60) \text{cov}[\boldsymbol{z}] = \boldsymbol{R}^{-1} = \begin{pmatrix} \boldsymbol{\Lambda^{-1} } & \boldsymbol{\Lambda^{-1}A^{T}} \\ \boldsymbol{A\Lambda^{-1}} & \boldsymbol{L^{-1}+A\Lambda^{-1}A^{T}} \end{pmatrix}\tag{2.60}

E[z]=R1(ΛμATLbLb)(2.61) \mathbb{E}[\boldsymbol{z}] = \boldsymbol{R}^{-1} \dbinom{\boldsymbol{\Lambda \mu - A^{T}Lb}}{\boldsymbol{Lb}}\tag{2.61}

E[z]=(μAμ+b)(2.62) \mathbb{E}[\boldsymbol{z}] = \dbinom{\boldsymbol{\mu}}{\boldsymbol{A\mu+b}}\tag{2.62}

边缘分布 p(y)p(\boldsymbol{y})均值协⽅差为:
E[y]=Aμ+b(2.63) \mathbb{E}[\boldsymbol{y}] = \boldsymbol{A\mu+b}\tag{2.63}

cov[y]=L1+AΛ1AT(2.64) \text{cov}[\boldsymbol{y}] = \boldsymbol{L^{-1}+A\Lambda^{-1}A^{T}}\tag{2.64}

条件分布 p(xy)p(\boldsymbol{x}|\boldsymbol{y})均值协⽅差为:
E[xy]=(Λ+ATLA)1{ATL(yb)+Λμ}(2.65) \mathbb{E}[\boldsymbol{x} | \boldsymbol{y}] = (\boldsymbol{\Lambda + A^{T}LA})^{-1}\{ \boldsymbol{A^{T}L(y-b) + \Lambda \mu} \}\tag{2.65}

cov[xy]=(Λ+ATLA)1(2.66) \text{cov}[\boldsymbol{x|y}] = (\boldsymbol{\Lambda + A^{T}LA})^{-1}\tag{2.66}

五,⾼斯分布的最⼤似然估计

给定⼀个数据集 X=(x1,,xN)T\boldsymbol{X} = (\boldsymbol{x}_1, \dots, \boldsymbol{x}_N)^T , 其中观测 {xn}\{\boldsymbol{x}_n\} 假定是独⽴地从多元⾼斯分布中抽取的。我们可以使⽤最⼤似然法估计分布的参数。对数似然函数为:
lnp(Xμ,Σ)=ND2ln(2π)N2lnΣ12n=1N(xnμ)TΣ1(xnμ)(2.67) \ln p(\boldsymbol{X|\mu, \Sigma}) = -\frac{ND}{2} \ln (2\pi) - \frac{N}{2}\ln \boldsymbol{|\Sigma|} - \frac{1}{2}\sum_{n=1}^{N}\boldsymbol{(x_n -\mu)^{T}\Sigma^{-1}(x_n-\mu)}\tag{2.67}
令对数似然函数关于 μ\mu 的导数为零,可以求得均值的最大似然估计:
μML=1Nn=1Nxn(2.68) \boldsymbol{\mu}_{ML} = \frac{1}{N}\sum_{n=1}^{N}\boldsymbol{x}_n\tag{2.68}
方差的最大似然估计:
ΣML=1Nn=1N(xnμML)(xnμML)T(2.69) \boldsymbol{\Sigma}_{ML} = \frac{1}{N}\sum_{n=1}^{N}(\boldsymbol{x}_n-\boldsymbol{\mu}_{ML})(\boldsymbol{x}_n-\boldsymbol{\mu}_{ML})^{T}\tag{2.69}
从而,
E[μML]=μ(2.70) \mathbb{E}[\boldsymbol{\mu}_{ML}] = \boldsymbol{\mu}\tag{2.70}

E[ΣML]=N1NΣ(2.71) \mathbb{E}[\boldsymbol{\Sigma}_{ML}] = \frac{N-1}{N}\boldsymbol{\Sigma}\tag{2.71}

Σ~ML=1Nn=1N1(xnμML)(xnμML)T(2.72) \tilde {\boldsymbol{\Sigma}}_{ML} = \frac{1}{N}\sum_{n=1}^{N-1}(\boldsymbol{x}_n-\boldsymbol{\mu}_{ML})(\boldsymbol{x}_n-\boldsymbol{\mu}_{ML})^{T}\tag{2.72}

六,顺序估计

考虑公式(2.68)给出的均值的最⼤似然估计结果 μML\boldsymbol{\mu}_{ML} 。 当它依赖于第 NN 次观察时, 将记作 μML(N)\boldsymbol{\mu}_{ML}^{(N)} 。如果想分析最后⼀个数据点 xN\boldsymbol{x}_N 的贡献,即有:
μML(N)=1Nn=1Nxn=1NxN+1Nn=1N1xn=1NxN+N1NμML(N1)=μML(N1)+1N(xnμML(N1))(2.73) \begin{aligned} \boldsymbol{\mu}_{ML}^{(N)} &= \frac{1}{N}\sum_{n=1}^{N}\boldsymbol{x}_n \\ &= \frac{1}{N}\boldsymbol{x}_{N} + \frac{1}{N}\sum_{n=1}^{N-1}\boldsymbol{x}_n \\ &= \frac{1}{N}\boldsymbol{x}_{N} + \frac{N-1}{N} \boldsymbol{\mu}_{ML}^{(N-1)} \\ &= \boldsymbol{\mu}_{ML}^{(N-1)} + \frac{1}{N}(\boldsymbol{x}_{n} -\boldsymbol{\mu}_{ML}^{(N-1)}) \end{aligned}\tag{2.73}
考虑⼀对随机变量 θ\thetazz , 它们由⼀个联合概率分布 p(z,θ)p(z, \theta) 所控制。已知 θ\theta 的条件下, zz 的条件期望定义了⼀个确定的函数 f(θ)f(\theta) ,叫回归函数,形式如下:
f(θ)E[zθ]=zp(zθ)dz(2.74) f(\theta) \equiv \mathbb{E}[z|\theta] = \int zp(z|\theta)\mathrm{d}z\tag{2.74}
如图2.15,回归函数 f(θ)f(\theta)
z的条件期望
⽬标是寻找根 θ\theta^{∗} 使得 f(θ)=0f(\theta^{∗}) = 0。 如果有观测 zzθ\theta 的⼀个⼤数据集, 那么可以直接对回归函数建模, 得到根的⼀个估计。 但是假设每次观测到⼀个 zz 的值, 我们想找到⼀个对应的顺序估计⽅法来找到 θ\theta^{∗} 。 下⾯的解决这种问题的通⽤步骤由 Robbins and Monro(1951)给出。假定 zz 的条件⽅差是有穷的,即:
E[(zf)2θ]< \mathbb{E}[(z-f)^2|\theta] \lt \infty
并且不失⼀般性, 我们也假设当 θ>θ\theta \gt \theta^{∗}f(θ)>0f(\theta) \gt 0, 当 θ<θ\theta \lt \theta^{∗}f(θ)<0f(\theta) \lt 0Robbins-Monro 的⽅法定义了⼀个根 θ\theta^{∗} 的顺序估计的序列,由公式(2.75)给出。
θ(N)=θ(N1)+αN1z(θ(N1))(2.75) \theta^{(N)} = \theta^{(N-1)} + \alpha_{N-1}z(\theta^{(N-1)})\tag{2.75}
其中 z(θ(N))z(\theta^{(N)}) 是当 θ\theta 的取值为 θ(N)\theta (N)zz 的观测值。系数 {αN}\{\alpha_N\} 表⽰⼀个满⾜下列条件的正数序列:
limNαN=0 \lim_{N \to \infty}\alpha_{N}=0

N=1αN= \sum_{N=1}^{\infty} \alpha_{N} = \infty

N=1αN2< \sum_{N=1}^{\infty} \alpha_{N}^{2} \lt \infty

根据定义,最⼤似然解 θML\theta_{ML} 是负对数似然函数的⼀个驻点,因此满⾜:
θ{1Nn=1Nlnp(xNθ)}θML=0(2.76) \left . \frac{\partial}{\partial \theta} \left\{\frac{1}{N}\sum_{n=1}^{N}- \ln p(x_N|\theta) \right\} \right|_{\theta_{ML}} = 0\tag{2.76}
交换导数与求和,取极限 NN \to \infty ,可以寻找最⼤似然解对应于寻找回归函数的根。 于是可以应⽤ Robbins-Monro⽅法,此时它的形式为:
θ(N)=θ(N1)+αN1θ(N1)[lnp(xNθ(N1))](2.77) \theta^{(N)} = \theta^{(N-1)} + \alpha_{N-1} \frac{\partial}{\partial\theta^{(N-1)}} \left [-\ln p(x_N |\theta^{(N-1)}) \right ]\tag{2.77}

七,⾼斯分布的贝叶斯推断

考虑⼀个⼀元⾼斯随机变量 x\mathbf{x},我们假设⽅差 σ2\sigma^2 是已知的,其任务是从⼀组 NN 次观测 x=(x1,,xN)T\mathbf{x}=(x_1,\dots, x_N)^T 中推断均值 μ\mu。 似然函数,即给定 μ\mu 的情况下,观测数据集出现的概率。它可以看成 μ\mu 的函数,由公式(2.78)给出。
p(xμ)=n=1Np(xnμ)=1(2πσ2)N2exp{12σ2n=1N(xnμ)2}(2.78) p(\mathbf{x}|\mu) = \prod_{n=1}^{N}p(x_n|\mu) = \frac{1}{\left(2 \pi \sigma^{2}\right)^{\frac{N}{2}}} \exp \left\{-\frac{1}{2 \sigma^{2}}\sum_{n=1}^{N}(x_n-\mu)^{2}\right\}\tag{2.78}
注意:似然函数 p(xμ)p(\mathbf{x}|\mu) 不是 μ\mu 的概率密度,没有被归⼀化。

如图2.16,在⾼斯分布的情形中,回归函数的形式。
回归函数的形式
令先验概率分布为:
p(μ)=N(μμ0,σ02)(2.79) p(\mu) = \mathcal{N}\left(\mu | \mu_0, \sigma_{0}^{2}\right)\tag{2.79}
从⽽后验概率为:
p(μx)=N(μμN,σN2)(2.80) p(\mu | \mathbf{x}) = \mathcal{N}\left(\mu | \mu_N, \sigma_{N}^{2}\right)\tag{2.80}
其中,
μN=σ2Nσ02+σ2μ0+Nσ02Nσ02+σ2μML \mu_N = \frac{\sigma^2}{N\sigma_{0}^2 + \sigma^2}\mu_0 + \frac{N\sigma_{0}^2}{N\sigma_{0}^2 + \sigma^2}\mu_{ML}

1σN2=1σ02+Nσ2 \frac{1}{\sigma_{N}^{2}} = \frac{1}{\sigma_{0}^{2}} + \frac{N}{\sigma^{2}}

μML=1Nn=1Nxn \mu_{ML} = \frac{1}{N}\sum_{n=1}^{N}x_n

图2.17,⾼斯分布均值的贝叶斯推断。
⾼斯分布均值的贝叶斯推断
现在假设均值是已知的,我们要推断⽅差。令 λ1σ2\lambda \equiv \frac{1}{\sigma^{2}}λ\lambda 的似然函数的形式为:

p(xλ)=n=1NN(xnμ,λ1)λN2exp{λ2n=1N(xnμ)2}(2.81) p(\mathbf{x}|\lambda) = \prod_{n=1}^{N}\mathcal{N}(x_n|\mu, \lambda^{-1}) \propto \lambda^{\frac{N}{2}} \exp \left\{-\frac{\lambda}{2}\sum_{n=1}^{N}(x_n-\mu)^{2}\right\}\tag{2.81}
对应的共轭先验因此应该正⽐于 λ\lambda 的幂指数,也正⽐于 λ\lambda 的线性函数的指数。这对应于 Gamma分布,定义为:
Gam(λa,b)=1Γ(a)baλa1exp(bλ)(2.82) \text{Gam}(\lambda|a,b) = \frac{1}{\Gamma(a)}b^{a}\lambda^{a-1}\exp (-b\lambda)\tag{2.82}
均值协⽅差分别为:
E[λ]=ab(2.83) \mathbb{E}[\lambda] = \frac{a}{b}\tag{2.83}

var[λ]=ab2(2.84) \text{var}[\lambda] = \frac{a}{b^2}\tag{2.84}

如图2.18~2.20,不同的 aabb 的情况下 Gamma分布的图像。
a=b=0.1
a=b=1
a=4,b=6
考虑⼀个先验分布 Gam(λa0,b0)\text{Gam}(\lambda|a_0,b_0)。如果乘以公式(2.81)给出的似然函数,那么即可得到后验分布:
p(λx)λa01λN2exp{b0λλ2n=1N(xnμ)2}(2.85) p(\lambda | \mathbf{x}) \propto \lambda^{a_0-1} \lambda^{\frac{N}{2}} \exp \left\{-b_0 \lambda -\frac{\lambda}{2}\sum_{n=1}^{N}(x_n-\mu)^{2}\right\}\tag{2.85}
我们可以把它看成形式为 Gam(λaN,bN)\text{Gam}(\lambda|a_N,b_N)Gamma分布,其中
aN=a0+N2 a_N = a_0 + \frac{N}{2}

bN=b012n=1N(xnμ)2=b0+N2σML2 b_N = b_0 \frac{1}{2}\sum_{n=1}^{N}(x_n-\mu)^2 = b_0 + \frac{N}{2}\sigma_{ML}^{2}

现在假设均值精度都是未知的。为了找到共轭先验,考虑似然函数对于 μ\muλ\lambda 的依赖关系:
p(xμ,λ)=n=1N(λ2π)12exp{λ2(xnμ)2}[λ12exp(λμ22)]Nexp{λμn=1Nxnλ2n=1Nxn2}(2.86) \begin{aligned} p(\mathbf{x}|\mu,\lambda) &= \prod_{n=1}^{N} \left(\frac{\lambda}{2\pi} \right)^{\frac{1}{2}} \exp \left\{-\frac{\lambda}{2}(x_n-\mu)^{2}\right\} \\ &\propto \left[\lambda^{\frac{1}{2}} \exp\left(-\frac{\lambda \mu^{2}}{2}\right) \right]^{N} \exp \left\{\lambda \mu \sum_{n=1}^{N}x_n - \frac{\lambda}{2}\sum_{n=1}^{N}x_{n}^{2}\right\} \end{aligned}\tag{2.86}
假设先验分布的形式为:
p(μ,λ)=exp{βλ2(μcβ)2}λβ2exp{(dc22β)λ}[λ12exp(λμ22)]βexp{cλμdλ}(2.87) \begin{aligned} p(\mu,\lambda) &= \exp \left\{-\frac{\beta \lambda}{2}\left(\mu-\frac{c}{\beta}\right)^2 \right\} \lambda^{\frac{\beta}{2}} \exp \left\{-\left(d-\frac{c^2}{2\beta}\right)\lambda \right\} \\ &\propto \left[\lambda^{\frac{1}{2}} \exp\left(-\frac{\lambda \mu^{2}}{2}\right) \right]^{\beta} \exp \left\{c\lambda \mu - d\lambda\right\} \end{aligned}\tag{2.87}
其 中 c,dc, dβ\beta 都是常数。

归⼀化的先验概率的形式为:
p(μ,λ)=N(μμ0,(βλ)1)Gam(λa,b)(2.88) p(\mu,\lambda) = \mathcal{N}(\mu|\mu_0, (\beta \lambda)^{-1})\text{Gam}(\lambda|a,b)\tag{2.88}
这被称为正态-Gamma分布或者⾼斯-Gamma分布。如图2.21:
正态-Gamma分布
对于 DD 维向量 x\boldsymbol{x} 的多元⾼斯分布 N(xμ,Λ1)\mathcal{N}(\boldsymbol{x|\mu, \Lambda}^{−1}),假设精度已知,则均值 μ\boldsymbol{\mu} 的共轭先验分布仍然是⾼斯分布。对于已知均值未知精度矩阵 Λ\boldsymbol{\Lambda} 的情形,共轭先验是**Wishart分布**,定义为:
W(ΛW,ν)=BΛνD12exp(12Tr(W1Λ))(2.89) \mathcal{W}(\mathbf{\Lambda} | \boldsymbol{W}, \nu)=B|\boldsymbol{\Lambda}|^{\frac{\nu-D-1}{2}} \exp \left(-\frac{1}{2} \operatorname{Tr}\left(\boldsymbol{W}^{-1} \boldsymbol{\Lambda}\right)\right)\tag{2.89}

其中 ν\nu 被称为分布的⾃由度数量(degrees of freedom),W\boldsymbol{W} 是⼀个 D×DD \times D 的标量矩阵,Tr()\operatorname{Tr}(·) 表⽰矩阵的。归⼀化系数 BB 为:
B(W,ν)=Wν2(2νD2πD(D1)4i=1DΓ(ν+1i2))1(2.90) B(\boldsymbol{W}, \nu)=|\boldsymbol{W}|^{-\frac{\nu}{2}}\left(2^{\frac{\nu D}{2}} \pi^{\frac{D(D-1)}{4}} \prod_{i=1}^{D} \Gamma\left(\frac{\nu+1-i}{2}\right)\right)^{-1}\tag{2.90}
如果均值和精度都是未知的,那么类似于⼀元变量的推理⽅法,共轭先验为:
p(μ,Λμ0,β,W,ν)=N(μμ0,(βΛ)1)W(ΛW,ν)(2.91) p(\boldsymbol{\mu,\Lambda|\mu}_0,\beta,\boldsymbol{W}, \nu) = \mathcal{N}(\boldsymbol{\mu|\mu}_0, (\beta \boldsymbol{\Lambda})^{-1})\mathcal{W}(\mathbf{\Lambda} | \boldsymbol{W}, \nu)\tag{2.91}
这被称为正态-Wishart分布或者⾼斯-Wishart分布

八,学生 t\mathbf{t} 分布

如果有⼀个⼀元⾼斯分布 N(xμ,τ1)\mathcal{N}\left(x | \mu, \tau^{-1}\right) 和⼀个 Gamma先验分布 Gam(τa,b)\text{Gam}(\tau|a, b),把精度积分出来,便可以得到 xx 的边缘分布,形式为:
p(xμ,a,b)=0N(xμ,τ1)Gam(τa,b)dτ=0bae(br)τa1Γ(a)(τ2π)12exp{τ2(xμ)2}dτ=baΓ(a)(12π)12[b+(xμ)22]a12Γ(a+12)(2.92) \begin{aligned} p(x | \mu, a, b) &=\int_{0}^{\infty} \mathcal{N}\left(x | \mu, \tau^{-1}\right) \operatorname{Gam}(\tau | a, b) \mathrm{d} \tau \\ &=\int_{0}^{\infty} \frac{b^{a} e^{(-b r)} \tau^{a-1}}{\Gamma(a)}\left(\frac{\tau}{2 \pi}\right)^{\frac{1}{2}} \exp \left\{-\frac{\tau}{2}(x-\mu)^{2}\right\} \mathrm{d} \tau \\ &=\frac{b^{a}}{\Gamma(a)}\left(\frac{1}{2 \pi}\right)^{\frac{1}{2}}\left[b+\frac{(x-\mu)^{2}}{2}\right]^{-a-\frac{1}{2}} \Gamma\left(a+\frac{1}{2}\right) \end{aligned}\tag{2.92}
形如 p(xμa,b)p(x|\mu a,b) 如下:
St(xμ,λ,ν)=Γ(ν2+12)Γ(ν2)(λπν)12[1+λ(xμ)2ν]ν212(2.93) \text{St}(x|\mu,\lambda,\nu) = \frac{\Gamma(\frac{\nu}{2}+\frac{1}{2})}{\Gamma(\frac{\nu}{2})}\left(\frac{\lambda}{\pi \nu}\right)^{\frac{1}{2}}\left[1+\frac{\lambda(x-\mu)^2}{\nu}\right]^{-\frac{\nu}{2}-\frac{1}{2}}\tag{2.93}
称为学生 t 分布Student's t-distribution)。 参数 λ\lambda 有时被称为 t\mathbf{t} 分布的精度precision), 即使它通常不等于⽅差的倒数。参数 ν\nu 被称为⾃由度degrees of freedom)。如图2.22:
学生t分布
学生 t\mathbf{t} 分布的⼀个重要性质鲁棒性(robustness),即对于数据集⾥的⼏个离群点outlier的出现,分布不会像⾼斯分布那样敏感。

图 2.23,从⼀个⾼斯分布中抽取的30个数据点的直⽅图,以及得到的最⼤似然拟合。红⾊曲线表⽰使⽤ t\mathbf{t} 分布进⾏的拟合,绿⾊曲线(⼤部分隐藏在了红⾊曲 线后⾯)表⽰使⽤⾼斯分布进⾏的拟合。由于 t\mathbf{t} 分布将⾼斯分布作为⼀种特例,因此它给出了与⾼斯分布⼏乎相同的解。
t分布与高斯分布a
图 2.24,与图2.23同样的数据集,但是多了三个异常数据点。这幅图展⽰了⾼斯分布(绿⾊曲线)是如 何被异常点强烈地⼲扰的,⽽ t\mathbf{t} 分布(红⾊曲线)相对不受影响。
t分布与高斯分布b
推⼴到多元⾼斯分布 N(xμ,Λ)\mathcal{N}(\boldsymbol{x|\mu, \Lambda}) 来得到对应的多元学生 t\mathbf{t} 分布,形式为:
St(xμ,Λ,ν)=0N(xμ,(ηΛ)1)Gam(ην2,ν2)dν(2.94) \operatorname{St}(\boldsymbol{x} | \boldsymbol{\mu}, \boldsymbol{\Lambda}, \nu)=\int_{0}^{\infty} \mathcal{N}\left(\boldsymbol{x} | \boldsymbol{\mu},(\eta \boldsymbol{\Lambda})^{-1}\right) \operatorname{Gam}\left(\eta | \frac{\nu}{2}, \frac{\nu}{2}\right) \mathrm{d} \nu \tag{2.94}
求积分,可得:
St(xμ,Λ,,ν)=Γ(ν2+D2)Γ(ν2)(Λ(πν)D)12[1+Δ2ν]ν2D2(2.95) \text{St}(\boldsymbol{x} | \boldsymbol{\mu}, \boldsymbol{\Lambda},,\nu) = \frac{\Gamma(\frac{\nu}{2}+\frac{D}{2})}{\Gamma(\frac{\nu}{2})}\left(\frac{|\boldsymbol{\Lambda}|}{(\pi \nu)^D}\right)^{\frac{1}{2}}\left[1+\frac{\Delta^{2}}{\nu}\right]^{-\frac{\nu}{2}-\frac{D}{2}}\tag{2.95}
其中 DDx\boldsymbol{x} 的维度,Δ2\Delta^2平⽅马⽒距离,定义为:
Δ2=(xμ)TΛ(xμ)(2.96) \Delta^2 = (\boldsymbol{x-\mu})^T \boldsymbol{\Lambda} (\boldsymbol{x-\mu})\tag{2.96}
多元变量形式的学生 t\mathbf{t} 分布,满⾜下⾯的性质:

1)E[x]=μ\mathbb{E}[\boldsymbol{x}] = \boldsymbol{\mu} 如果 ν>1\nu \gt 1

2)cov[x]=νν2Λ1\text{cov}[\boldsymbol{x}] = \frac{\nu}{\nu-2}\boldsymbol{\Lambda}^{-1} 如果 ν>2\nu \gt 2

3)mode[x]=μ\text{mode}[\boldsymbol{x}] = \boldsymbol{\mu}

九,周期变量

考察⼀个⼆维单位向量 x1,,xN\boldsymbol{x}_1,\dots,\boldsymbol{x}_N , 其中 xn=1||\boldsymbol{x}_n|| = 1n=1,,Nn = 1,\dots , N , 如图2.25所⽰。
⼆维单位向量
可以对向量 {xn}\{\boldsymbol{x}_n\} 求平均,可得
xˉ=1Nn=1Nxn \bar{\boldsymbol{x}} = \frac{1}{N}\sum_{n=1}^{N}\boldsymbol{x}_n
注意,xˉ\bar{\boldsymbol{x}} 通常位於单位圆的内部。

xˉ\bar{\boldsymbol{x}} 对应的角度 θˉ\bar{\theta} 为:
θˉ=tan1{nsinθnncosθn}(2.97) \bar{\theta} = \tan^{-1} \left\{\frac{\sum_{n}\sin \theta_n}{\sum_{n}\cos \theta_n} \right\}\tag{2.97}
考虑的周期概率分布 p(θ)p(\theta) 的周期为 2π2\piθ\theta 上的任何概率密度 p(θ)p(\theta) ⼀定⾮负, 积分等于1,并且⼀定是周期性的。因此, p(θ)p(\theta) ⼀定满⾜下⾯三个条件:

1) p(θ)0p(\theta) \ge 0

2) 02πp(θ)dθ=1\int_{0}^{2\pi} p(\theta) \mathrm{d}\theta = 1

3) p(θ+2π)=p(θ)p(\theta + 2\pi) = p(\theta)

考虑两个变量 x=(x1,x2)\boldsymbol{x} = (x_1 , x_2) 的⾼斯分布,均值为 μ=(μ1,μ2)\boldsymbol{\mu} = (\mu_1, \mu_2),协⽅差矩阵为 Σ=σ2I\boldsymbol{\Sigma} = \sigma^2 \boldsymbol{I} ,其中 I\boldsymbol{I} 是⼀个 2×22\times2 的单位矩阵。因此有:
p(x1,x2)=12πσ2exp{(x1μ1)2+(x2μ2)22σ2}(2.98) p(x_1,x_2) = \frac{1}{2\pi \sigma^{2}} \exp \left\{-\frac{(x_1-\mu_1)^2+(x_2-\mu_2)^{2}}{2\sigma^{2}}\right\}\tag{2.98}
von Mises分布(环形正态分布circular normal)):在单位圆 r=1r=1上的概率分布 p(θ)p(\theta) 的最终表达式:
p(θθ0,m)=12πI0(m)exp{mcos(θθ0)}(2.99) p(\theta|\theta_0,m) = \frac{1}{2\pi I_0(m)} \exp \left\{m\cos(\theta-\theta_0)\right\}\tag{2.99}
其中,参数 θ0\theta_0 对应于分布的均值,mm 被称为 concentration参数,类似于⾼斯分布的⽅差的倒数(精度)。归⼀化系数包含项 I0(m)I_0 (m),是零阶修正的第⼀类Bessel函数Abramowitz and Stegun, 1965), 定义为:
I0(m)=12π02πexp{mcosθ}dθ(2.100) I_0(m) = \frac{1}{2\pi} \int_{0}^{2\pi}\exp\{m\cos \theta\}\mathrm{d}\theta\tag{2.100}
如图2.26~2.27,von Mises分布的图像。
笛卡尔座标系

极座标系
如图2.28, Bessel函数 I0(m)I_0 (m) 的图像。
Bessel函数
现在考虑 von Mises分布 的参数 θ0\theta_0 和参数 mm 的最⼤似然估计。对数似然函数为:
lnp(Dθ0,m)=Nln(2π)lnI0(m)+mn=1Ncos(θnθ0)(2.101) \ln p(\mathcal{D} | \theta_0,m)=-N\ln (2\pi)-\ln I_0(m)+m\sum_{n=1}^{N}\cos(\theta_n-\theta_0)\tag{2.101}
令其关于 θ0\theta_0 的导数等于零,从⽽可以得到:
θ0ML=tan1{nsinθnncosθn}(2.102) \theta_{0}^{ML} = \tan^{-1} \left\{\frac{\sum_{n}\sin \theta_n}{\sum_{n}\cos \theta_n} \right\}\tag{2.102}
关于 mm 最⼤化公式(2.101),使⽤ I0(m)=I1(m)I_0^{\prime}(m)=I_1(m)Abramowitz and Stegun, 1965),从⽽可以得到:
A(mNL)=1Nn=1Ncos(θnθ0ML)(2.103) A(m_{NL})=\frac{1}{N}\sum_{n=1}^{N}\cos(\theta_{n}-\theta_{0}^{ML})\tag{2.103}

A(m)=I1(m)I0(m) A(m)=\frac{I_1(m)}{I_0(m)}
可以得到:
A(mML)=(1Nn=1Ncosθn)cosθ0ML+(1Nn=1Nsinθn)sinθ0ML(2.104) A(m_{ML})=\left(\frac{1}{N}\sum_{n=1}^{N}\cos \theta_{n}\right)\cos \theta_{0}^{ML} + \left(\frac{1}{N}\sum_{n=1}^{N}\sin \theta_{n}\right)\sin \theta_{0}^{ML}\tag{2.104}

如图2.29, 函数 A(m)A (m) 的图像。
Am函数

十,混合高斯模型

通过将更基本的概率分布(例如⾼斯分布)进⾏线性组合的这样的叠加⽅法,可以被形式化为概率模型,被称为混合模型mixture distributions)(McLachlan and Basford, 1988; McLachlan and Peel, 2000)。

考虑 KK 个⾼斯概率密度的叠加,形式为:
p(x)=k=1KπkN(xμk,Σk)(2.105) p(\boldsymbol{x}) = \sum_{k=1}^{K} \pi_{k} \mathcal{N}(\boldsymbol{x} |\boldsymbol{\mu_{k}}, \boldsymbol{\Sigma}_{k})\tag{2.105}
这被称为混合⾼斯mixture of Gaussians)。 每⼀个⾼斯概率密度 N(xμk,Σk)\mathcal{N}(\boldsymbol{x} |\boldsymbol{\mu_{k}}, \boldsymbol{\Sigma}_{k}) 被称为混合分布的⼀个成分component),并且有⾃⼰的均值 μk\boldsymbol{\mu_{k}} 和协⽅差 Σk\boldsymbol{\Sigma}_{k}。参数 πk\pi_{k} 被称为混合系数mixing coefficients),并且满足以下条件:

1)k=1Kπk=1\sum_{k=1}^{K} \pi_{k}=1
2)0πk10\le \pi_{k} \le 1

如图2.30,每个混合分量的常数概率密度轮廓线,其中三个分量分别被标记为红⾊、蓝⾊和绿⾊, 且混合系数的值在每个分量的下⽅给出。
概率密度轮廓线
如图2.31, 混合分布的边缘概率密度 p(x)p(\boldsymbol{x}) 的轮廓线。
边缘概率密度轮廓线
如图2.32, 概率分布 p(x)p(\boldsymbol{x}) 的⼀个曲⾯图。
概率密度曲面图

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章