【機器學習基礎】概率分佈之高斯分佈

本系列爲《模式識別與機器學習》的讀書筆記。

一,多元高斯分佈

考慮⾼斯分佈的⼏何形式,⾼斯對於 x\boldsymbol{x} 的依賴是通過下⾯形式的⼆次型:
Δ2=(xμ)TΣ1(xμ)(2.30) \Delta^{2} = (\boldsymbol{x} - \boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x} - \boldsymbol{\mu})\tag{2.30}
其中,Δ\Delta 被叫做 μ\boldsymbol{\mu}x\boldsymbol{x} 之間的馬⽒距離Mahalanobis distance)。 當 Σ\boldsymbol{\Sigma} 是單位矩陣時,就變成了歐式距離。對於 x\boldsymbol{x} 空間中這個⼆次型是常數的曲⾯,⾼斯分佈也是常數。

現在考慮協⽅差矩陣特徵向量⽅程
Σμi=λiμi(2.31) \boldsymbol{\Sigma} \boldsymbol{\mu}_i = \lambda_{i} \boldsymbol{\mu}_{i}\tag{2.31}
其中 i=1,,Di = 1,\dots , D。由於 Σ\boldsymbol{\Sigma}實對稱矩陣,因此它的特徵值也是實數,並且特徵向量可以被選成單位正交的,即:
μiTμj=Iij(2.32) \boldsymbol{\mu}_{i}^{T} \boldsymbol{\mu}_{j} = I_{ij}\tag{2.32}

其中 IijI_{ij} 是單位矩陣的第 i,ji, j 個元素,滿⾜:
Iij={1i=j0(2.33) I_{i j}=\left\{\begin{array}{l}{1,如果 i=j} \\ {0,其他情況}\end{array}\right. \tag{2.33}
協⽅差矩陣 Σ\boldsymbol{\Sigma} 可以表⽰成特徵向量的展開的形式:
Σ=i=1DλiμiμiT(2.34) \boldsymbol{\Sigma} = \sum_{i=1}^{D} \lambda_i \boldsymbol{\mu}_{i}\boldsymbol{\mu}_{i}^{T}\tag{2.34}
協⽅差矩陣的逆矩陣 Σ1\boldsymbol{\Sigma}^{-1} 可以表⽰成特徵向量的展開的形式:
Σ1=i=1D1λiμiμiT(2.35) \boldsymbol{\Sigma}^{-1} = \sum_{i=1}^{D} \frac{1}{\lambda_i} \boldsymbol{\mu}_{i}\boldsymbol{\mu}_{i}^{T}\tag{2.35}
⼆次型公式(2.30)即可表示爲:
Δ2=i=1Dyi2λi(2.36) \Delta^{2} = \sum_{i=1}^{D} \frac{y_{i}^{2}}{\lambda_{i}}\tag{2.36}
其中,yi2=uiT(xμ)y_{i}^{2} = \boldsymbol{u_i^T} (\boldsymbol{x} - \boldsymbol{\mu})

{yi}\{y_i\} 表⽰成單位正交向量 μi\boldsymbol{\mu_i} 關於原始的 xix_i 座標經過平移和旋轉後形成的新的座標系。定義向量 y=(y1,,yD)T\boldsymbol{y} = (y_1,\dots, y_D)^T ,即有:
y=U(xμ)(2.37) \boldsymbol {y} = \boldsymbol{U} (\boldsymbol{x} - \boldsymbol{\mu})\tag{2.37}
其中 U\boldsymbol{U} 是⼀個矩陣,它的⾏是向量 uiT\boldsymbol{u}_{i}^{T} 。從公式(2.32)可以看出 U\boldsymbol{U} 是⼀個正交矩陣, 即它滿⾜性質 UUT=I\boldsymbol{U}\boldsymbol{U}^T = \boldsymbol{I} ,因此也滿⾜ UTU=I\boldsymbol{U}^T \boldsymbol{U} = \boldsymbol{I} ,其中 I\boldsymbol{I} 是單位矩陣。

⼀個特徵值嚴格⼤於零的矩陣被稱爲正定(positive definite)矩陣。偶爾遇到⼀個或者多個特徵值爲零的⾼斯分佈,那種情況下分佈是奇異的,被限制在 了⼀個低維的⼦空間中。如果所有的特徵值都是⾮負的,那麼這個矩陣被稱爲半正定(positive semidefine)矩陣

如圖2.12,紅⾊曲線表⽰⼆維空間 x=(x1,x2)\boldsymbol{x} = (x_1 , x_2) 的⾼斯分佈的常數概率密度的橢圓⾯, 它表⽰的概率密度爲 exp(12)\exp(−\frac{1}{2}),值是在 x=μ\boldsymbol{x} = \boldsymbol{\mu} 處計算的。橢圓的軸由協⽅差矩陣的特徵向量 μi\mu_i 定義,對應的特徵值爲 λi\lambda_i
橢圓面
現在考慮在由 yiy_i 定義的新座標系下⾼斯分佈的形式。 從 x\boldsymbol{x} 座標系到 y\boldsymbol{y} 座標系, 我們有⼀ 個 Jacobian矩陣 J\boldsymbol{J} ,它的元素爲:
Jij=xijj=Uij(2.38) \boldsymbol{J}_{ij} = \frac{\partial {x_i}}{\partial {j_j}} = U_{ij}\tag{2.38}

其中 UjiU_{ji} 是矩陣 UT\boldsymbol{U}^T 的元素。使⽤矩陣 U\boldsymbol{U} 的單位正交性質,我們看到 Jacobian矩陣 ⾏列式的平⽅爲:
J2=UT2=UTU=UTU=I=1(2.39) | \boldsymbol{J}^{2} | = |\boldsymbol{U}^{T}|^{2} = |\boldsymbol{U}^{T}||\boldsymbol{U}| = |\boldsymbol{U}^{T}\boldsymbol{U}| = |\boldsymbol{I}| = 1\tag{2.39}
從而可知,J=1|\boldsymbol{J}|=1 ,並且,⾏列式 Σ|\boldsymbol{\Sigma}| 的協⽅差矩陣可以寫成特徵值的乘積,因此:
Σ12=j=1Dλj12(2.40) |\boldsymbol{\Sigma}|^{\frac{1}{2}} = \prod_{j=1}^{D} \lambda_{j}^{\frac{1}{2}}\tag{2.40}
因此在 y\boldsymbol{y} 座標系中,⾼斯分佈的形式爲:
p(y)=p(x)J=j=1D1(2πλj)12exp{yi22λj}(2.41) p(\boldsymbol{y}) = p(\boldsymbol{x})|\boldsymbol{J}| = \prod_{j=1}^{D} \frac{1}{(2 \pi \lambda_{j})^{\frac{1}{2}}} \exp \left \{- \frac{y_{i}^2}{2\lambda_j} \right \}\tag{2.41}

這是 DD 個獨⽴⼀元⾼斯分佈的乘積。

y\boldsymbol{y} 座標系中,概率分佈的積分爲:
p(y)dy=j=1D1(2πλj)12exp{yi22λj}dyj=1(2.42) \int p(\boldsymbol{y}) \mathrm{d} \boldsymbol{y} = \prod_{j=1}^{D} \int_{-\infty}^{\infty} \frac{1}{(2 \pi \lambda_{j})^{\frac{1}{2}}} \exp \left \{- \frac{y_{i}^2}{2\lambda_j} \right \} \mathrm{d} y_j = 1\tag{2.42}
⾼斯分佈x\boldsymbol{x} 的期望爲:
E[x]=1(2π)D21Σ12exp{12(xμ)TΣ1(xμ)}xdx=1(2π)D21Σ12exp{12zTΣ1z}(z+μ)dz(2.43) \begin{aligned} \mathbb{E}[\boldsymbol{x}] &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right\} \boldsymbol{x} \mathrm{d} \boldsymbol{x} \\ &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}\boldsymbol{z}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{z}\right\} (\boldsymbol{z+\mu}) \mathrm{d} \boldsymbol{z} \end{aligned}\tag{2.43}
其中,z=xμ\boldsymbol{z = x - \mu} 。注意到指數位置是 z\boldsymbol{z} 的偶函數,並且由於積分區間爲 (,)(−\infty, \infty),因此在因⼦ (z+μ)(\boldsymbol{z + \mu}) 中的 z\boldsymbol{z} 中的項會由於對稱性變爲零。因此 E[x]=μ\mathbb{E}[\boldsymbol{x}] = \boldsymbol{\mu} 。稱 μ\boldsymbol{\mu} 爲⾼斯分佈的均值

現在考慮⾼斯分佈的⼆階矩。對於多元⾼斯分佈,有 D2D^2 個由 E[xixj]\mathbb{E}[x_i x_j] 給出的⼆階矩,可以聚集在⼀起組成矩陣 E[xxT]\mathbb{E}[\boldsymbol{x}\boldsymbol{x}^T ]
E[xxT]=1(2π)D21Σ12exp{12(xμ)TΣ1(xμ)}xxTdx=1(2π)D21Σ12exp{12zTΣ1z}(z+μ)(z+μ)Tdz(2.44) \begin{aligned} \mathbb{E}[\boldsymbol{x}\boldsymbol{x}^{T}] &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right\} \boldsymbol{x} \boldsymbol{x}^{T}\mathrm{d} \boldsymbol{x} \\ &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}\boldsymbol{z}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{z}\right\} (\boldsymbol{z+\mu})(\boldsymbol{z+\mu})^{T} \mathrm{d} \boldsymbol{z} \end{aligned}\tag{2.44}
其中,z=xμ\boldsymbol{z = x - \mu}z=j=1Dyiuj\boldsymbol{z} = \sum_{j=1}^{D} y_i \boldsymbol{u_j}yi=ujTzy_i = \boldsymbol{u_j}^{T}\boldsymbol{z}

由此可以推導出:
E[xxT]=μuT+Σ(2.45) \mathbb{E}[\boldsymbol{x}\boldsymbol{x}^{T}] = \boldsymbol{\mu}\boldsymbol{u}^{T} + \boldsymbol{\Sigma}\tag{2.45}
隨機變量 x\boldsymbol{x}協⽅差covariance),定義爲:
var[x]=E[(xE[x])(xE[x])T](2.46) \text{var}[\boldsymbol{x}] = \mathbb{E}[(\boldsymbol{x} - \mathbb{E}[\boldsymbol{x}])(\boldsymbol{x} - \mathbb{E}[\boldsymbol{x}])^{T}]\tag{2.46}
對於⾼斯分佈這⼀特例,我們可以使⽤ E[x]=μ\mathbb{E}[\boldsymbol{x}] = \boldsymbol{\mu} 以及公式(2.45)的結果,得到:
var[x]=Σ(2.47) \text{var}[\boldsymbol{x}] = \boldsymbol{\Sigma}\tag{2.47}
由於參數 Σ\boldsymbol{\Sigma} 公式了⾼斯分佈下 x\boldsymbol{x} 的協⽅差,因此它被稱爲協⽅差矩陣

二,條件⾼斯分佈

多元⾼斯分佈的⼀個重要性質:如果兩組變量是聯合⾼斯分佈,那麼以⼀組變量爲條件, 另⼀組變量同樣是⾼斯分佈。

假設 x\boldsymbol{x} 是⼀個服從⾼斯分佈 N(xμ,Σ)\mathcal{N}(\boldsymbol{x} | \boldsymbol{\mu}, \mathbf{\Sigma})DD 維向量。我們把 x\boldsymbol{x} 劃分成兩個不相交的⼦集 xa\boldsymbol{x}_axb\boldsymbol{x}_b 。 不失⼀般性, 令 xa\boldsymbol{x}_ax\boldsymbol{x} 的前 MM 個分量, 令 xb\boldsymbol{x}_b 爲剩餘的 DMD − M 個分量,因此
x=(xaxb) \boldsymbol{x} = \dbinom{\boldsymbol{x}_a}{\boldsymbol{x}_b}
同理,對應的對均值向量 μ\boldsymbol{\mu} 的劃分,即
μ=(μaμb) \boldsymbol{\mu} = \dbinom{\boldsymbol{\mu}_a}{\boldsymbol{\mu}_b}
協⽅差矩陣 Σ\boldsymbol{\Sigma} 爲:
Σ=(ΣaaΣabΣbaΣbb)(2.48) \boldsymbol{\Sigma} = \begin{pmatrix} \boldsymbol{\Sigma}_{aa} & \boldsymbol{\Sigma}_{ab} \\ \boldsymbol{\Sigma}_{ba} & \boldsymbol{\Sigma}_{bb} \end{pmatrix}\tag{2.48}
注意,協⽅差矩陣的對稱性 ΣT=Σ\boldsymbol{\Sigma} ^T= \boldsymbol{\Sigma} 表明 Σaa\boldsymbol{\Sigma}_{aa}Σbb\boldsymbol{\Sigma}_{bb} 也是對稱的,⽽ Σba=ΣabT\boldsymbol{\Sigma}_{ba} = \boldsymbol{\Sigma}_{ab}^{T}

在許多情況下,使⽤協⽅差矩陣的逆矩陣⽐較⽅便,也叫精度矩陣(precision matrix,即:
ΛΣ1(2.49) \boldsymbol{\Lambda} \equiv \boldsymbol{\Sigma}^{-1}\tag{2.49}
精度矩陣的劃分形式
Λ=(ΛaaΛabΛbaΛbb) \boldsymbol{\Lambda} = \begin{pmatrix} \boldsymbol{\Lambda}_{aa} & \boldsymbol{\Lambda}_{ab} \\ \boldsymbol{\Lambda}_{ba} & \boldsymbol{\Lambda}_{bb} \end{pmatrix}
關於分塊矩陣的逆矩陣的恆等式:
(ABCD)1=(MMBD1D1CMD1+CMBD1)(2.50) \begin{pmatrix} \boldsymbol{A} & \boldsymbol{B} \\ \boldsymbol{C} & \boldsymbol{D} \end{pmatrix}^{-1} = \begin{pmatrix} \boldsymbol{M} & \boldsymbol{-MBD^{-1}} \\ \boldsymbol{-D^{-1}CM} & \boldsymbol{D^{-1}+CMBD^{-1}} \end{pmatrix}\tag{2.50}
其中, M=(ABD1C)1\boldsymbol{M = (A-BD^{-1}C)^{-1}}M1\boldsymbol{M}^{-1} 被稱爲公式(2.50)左側矩陣關於⼦矩陣 D\boldsymbol{D}舒爾補Schur complement)。

由以上公式和相關結論可以推導出條件概率分佈 p(xaxb)p(\boldsymbol{x}_a | \boldsymbol{x}_b)均值協⽅差的表達式:
μab=μa+ΣabΣbb1(xbμb)(2.51) \boldsymbol{\mu}_{a|b} = \boldsymbol{\mu}_a + \boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}(\boldsymbol{x}_b-\boldsymbol{\mu}_b)\tag{2.51}

Σab=ΣaaΣabΣbb1Σba(2.52) \boldsymbol{\Sigma}_{a|b} = \boldsymbol{\Sigma}_{aa} - \boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}\boldsymbol{\Sigma}_{ba}\tag{2.52}

三,邊緣⾼斯分佈

對於邊緣高斯分佈
p(xa)=p(xa,xb)dxb(2.53) p(\boldsymbol{x}_a) = \int p(\boldsymbol{x}_a, \boldsymbol{x}_b) \mathrm{d} \boldsymbol{x}_b\tag{2.53}
同條件高斯分佈一樣,可以推導出邊緣概率分佈 p(xa)p(\boldsymbol{x}_a)均值協⽅差的表達式:
Σa=(ΛaaΛabΛbb1Λba)1(2.54) \boldsymbol{\Sigma}_{a} = (\boldsymbol{\Lambda}_{aa} - \boldsymbol{\Lambda}{ab}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba})^{-1}\tag{2.54}

E[xa]=μa(2.55) \mathbb{E}[\boldsymbol{x}_a] = \boldsymbol{\mu}_a\tag{2.55}

cov[xa]=Σaa(2.56) \text{cov}[\boldsymbol{x}_a] = \boldsymbol{\Sigma}_{aa}\tag{2.56}

如圖2.13,兩個變量上的⾼斯概率分佈 p(xa,xb)p(x_a , x_b) 的輪廓線。
⾼斯概率分佈輪廓線
如圖2.14,邊緣概率分佈 p(xa)p(x_a)(藍⾊曲線)和 xb=0.7x_b = 0.7 的條件概率分佈 p(xaxb)p(x_a | x_b)(紅⾊曲線)。
邊緣概率分佈和條件概率分佈

四,⾼斯變量的貝葉斯定理

令邊緣概率分佈和條件概率分佈的形式:
p(x)=N(xμ,Λ1)(2.57) p(\boldsymbol{x}) = \mathcal{N}(\boldsymbol{x} |\boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1})\tag{2.57}

p(yx)=N(yAx+b,L1)(2.58) p(\boldsymbol{y} | \boldsymbol{x}) = \mathcal{N}(\boldsymbol{y} |\boldsymbol{Ax+b}, \boldsymbol{L}^{-1})\tag{2.58}

其中,μ\boldsymbol{\mu}A\boldsymbol{A}b\boldsymbol{b} 是控制均值的參數,Λ\boldsymbol{\Lambda}L\boldsymbol{L} 是精度矩陣。如果 x\boldsymbol{x} 的維度爲 MMy\boldsymbol{y} 的維度爲 DD,那麼矩陣 AA 的⼤⼩爲 D×MD \times M

⾸先,我們尋找 x\boldsymbol{x}y\boldsymbol{y} 的聯合分佈的表達式。令
z=(xy) \boldsymbol{z} = \dbinom{\boldsymbol{x}}{\boldsymbol{y}}
然後考慮聯合概率分佈的對數:
lnp(z)=lnp(x)+lnp(yx)=12(xμ)TΛ(xμ)12(yAxb)TL(yAxb)+(2.59) \begin{aligned}\ln p(\boldsymbol{z}) &= \ln p(\boldsymbol{x}) + \ln p(\boldsymbol{y} | \boldsymbol{x}) \\ &= -\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \Lambda (\boldsymbol{x} - \boldsymbol{\mu}) \\ &-\frac{1}{2}(\boldsymbol{y} - \boldsymbol{Ax} - \boldsymbol{b})^{T} \boldsymbol{L} (\boldsymbol{y}-\boldsymbol{Ax}-\boldsymbol{b}) + 常數 \end{aligned} \tag{2.59}
可以推導出,z\boldsymbol{z} 上的⾼斯分佈的精度矩陣(協⽅差的逆矩陣)爲:
R=(Λ+ATLAATLLAL) \boldsymbol{R} = \begin{pmatrix} \boldsymbol{\Lambda + A^{T}LA} & \boldsymbol{-A^{T}L} \\ \boldsymbol{-LA} & \boldsymbol{L} \end{pmatrix}
從而,z\boldsymbol{z} 上的⾼斯分佈的均值協⽅差的表達式:
cov[z]=R1=(Λ1Λ1ATAΛ1L1+AΛ1AT)(2.60) \text{cov}[\boldsymbol{z}] = \boldsymbol{R}^{-1} = \begin{pmatrix} \boldsymbol{\Lambda^{-1} } & \boldsymbol{\Lambda^{-1}A^{T}} \\ \boldsymbol{A\Lambda^{-1}} & \boldsymbol{L^{-1}+A\Lambda^{-1}A^{T}} \end{pmatrix}\tag{2.60}

E[z]=R1(ΛμATLbLb)(2.61) \mathbb{E}[\boldsymbol{z}] = \boldsymbol{R}^{-1} \dbinom{\boldsymbol{\Lambda \mu - A^{T}Lb}}{\boldsymbol{Lb}}\tag{2.61}

E[z]=(μAμ+b)(2.62) \mathbb{E}[\boldsymbol{z}] = \dbinom{\boldsymbol{\mu}}{\boldsymbol{A\mu+b}}\tag{2.62}

邊緣分佈 p(y)p(\boldsymbol{y})均值協⽅差爲:
E[y]=Aμ+b(2.63) \mathbb{E}[\boldsymbol{y}] = \boldsymbol{A\mu+b}\tag{2.63}

cov[y]=L1+AΛ1AT(2.64) \text{cov}[\boldsymbol{y}] = \boldsymbol{L^{-1}+A\Lambda^{-1}A^{T}}\tag{2.64}

條件分佈 p(xy)p(\boldsymbol{x}|\boldsymbol{y})均值協⽅差爲:
E[xy]=(Λ+ATLA)1{ATL(yb)+Λμ}(2.65) \mathbb{E}[\boldsymbol{x} | \boldsymbol{y}] = (\boldsymbol{\Lambda + A^{T}LA})^{-1}\{ \boldsymbol{A^{T}L(y-b) + \Lambda \mu} \}\tag{2.65}

cov[xy]=(Λ+ATLA)1(2.66) \text{cov}[\boldsymbol{x|y}] = (\boldsymbol{\Lambda + A^{T}LA})^{-1}\tag{2.66}

五,⾼斯分佈的最⼤似然估計

給定⼀個數據集 X=(x1,,xN)T\boldsymbol{X} = (\boldsymbol{x}_1, \dots, \boldsymbol{x}_N)^T , 其中觀測 {xn}\{\boldsymbol{x}_n\} 假定是獨⽴地從多元⾼斯分佈中抽取的。我們可以使⽤最⼤似然法估計分佈的參數。對數似然函數爲:
lnp(Xμ,Σ)=ND2ln(2π)N2lnΣ12n=1N(xnμ)TΣ1(xnμ)(2.67) \ln p(\boldsymbol{X|\mu, \Sigma}) = -\frac{ND}{2} \ln (2\pi) - \frac{N}{2}\ln \boldsymbol{|\Sigma|} - \frac{1}{2}\sum_{n=1}^{N}\boldsymbol{(x_n -\mu)^{T}\Sigma^{-1}(x_n-\mu)}\tag{2.67}
令對數似然函數關於 μ\mu 的導數爲零,可以求得均值的最大似然估計:
μML=1Nn=1Nxn(2.68) \boldsymbol{\mu}_{ML} = \frac{1}{N}\sum_{n=1}^{N}\boldsymbol{x}_n\tag{2.68}
方差的最大似然估計:
ΣML=1Nn=1N(xnμML)(xnμML)T(2.69) \boldsymbol{\Sigma}_{ML} = \frac{1}{N}\sum_{n=1}^{N}(\boldsymbol{x}_n-\boldsymbol{\mu}_{ML})(\boldsymbol{x}_n-\boldsymbol{\mu}_{ML})^{T}\tag{2.69}
從而,
E[μML]=μ(2.70) \mathbb{E}[\boldsymbol{\mu}_{ML}] = \boldsymbol{\mu}\tag{2.70}

E[ΣML]=N1NΣ(2.71) \mathbb{E}[\boldsymbol{\Sigma}_{ML}] = \frac{N-1}{N}\boldsymbol{\Sigma}\tag{2.71}

Σ~ML=1Nn=1N1(xnμML)(xnμML)T(2.72) \tilde {\boldsymbol{\Sigma}}_{ML} = \frac{1}{N}\sum_{n=1}^{N-1}(\boldsymbol{x}_n-\boldsymbol{\mu}_{ML})(\boldsymbol{x}_n-\boldsymbol{\mu}_{ML})^{T}\tag{2.72}

六,順序估計

考慮公式(2.68)給出的均值的最⼤似然估計結果 μML\boldsymbol{\mu}_{ML} 。 當它依賴於第 NN 次觀察時, 將記作 μML(N)\boldsymbol{\mu}_{ML}^{(N)} 。如果想分析最後⼀個數據點 xN\boldsymbol{x}_N 的貢獻,即有:
μML(N)=1Nn=1Nxn=1NxN+1Nn=1N1xn=1NxN+N1NμML(N1)=μML(N1)+1N(xnμML(N1))(2.73) \begin{aligned} \boldsymbol{\mu}_{ML}^{(N)} &= \frac{1}{N}\sum_{n=1}^{N}\boldsymbol{x}_n \\ &= \frac{1}{N}\boldsymbol{x}_{N} + \frac{1}{N}\sum_{n=1}^{N-1}\boldsymbol{x}_n \\ &= \frac{1}{N}\boldsymbol{x}_{N} + \frac{N-1}{N} \boldsymbol{\mu}_{ML}^{(N-1)} \\ &= \boldsymbol{\mu}_{ML}^{(N-1)} + \frac{1}{N}(\boldsymbol{x}_{n} -\boldsymbol{\mu}_{ML}^{(N-1)}) \end{aligned}\tag{2.73}
考慮⼀對隨機變量 θ\thetazz , 它們由⼀個聯合概率分佈 p(z,θ)p(z, \theta) 所控制。已知 θ\theta 的條件下, zz 的條件期望定義了⼀個確定的函數 f(θ)f(\theta) ,叫迴歸函數,形式如下:
f(θ)E[zθ]=zp(zθ)dz(2.74) f(\theta) \equiv \mathbb{E}[z|\theta] = \int zp(z|\theta)\mathrm{d}z\tag{2.74}
如圖2.15,迴歸函數 f(θ)f(\theta)
z的條件期望
⽬標是尋找根 θ\theta^{∗} 使得 f(θ)=0f(\theta^{∗}) = 0。 如果有觀測 zzθ\theta 的⼀個⼤數據集, 那麼可以直接對迴歸函數建模, 得到根的⼀個估計。 但是假設每次觀測到⼀個 zz 的值, 我們想找到⼀個對應的順序估計⽅法來找到 θ\theta^{∗} 。 下⾯的解決這種問題的通⽤步驟由 Robbins and Monro(1951)給出。假定 zz 的條件⽅差是有窮的,即:
E[(zf)2θ]< \mathbb{E}[(z-f)^2|\theta] \lt \infty
並且不失⼀般性, 我們也假設當 θ>θ\theta \gt \theta^{∗}f(θ)>0f(\theta) \gt 0, 當 θ<θ\theta \lt \theta^{∗}f(θ)<0f(\theta) \lt 0Robbins-Monro 的⽅法定義了⼀個根 θ\theta^{∗} 的順序估計的序列,由公式(2.75)給出。
θ(N)=θ(N1)+αN1z(θ(N1))(2.75) \theta^{(N)} = \theta^{(N-1)} + \alpha_{N-1}z(\theta^{(N-1)})\tag{2.75}
其中 z(θ(N))z(\theta^{(N)}) 是當 θ\theta 的取值爲 θ(N)\theta (N)zz 的觀測值。係數 {αN}\{\alpha_N\} 表⽰⼀個滿⾜下列條件的正數序列:
limNαN=0 \lim_{N \to \infty}\alpha_{N}=0

N=1αN= \sum_{N=1}^{\infty} \alpha_{N} = \infty

N=1αN2< \sum_{N=1}^{\infty} \alpha_{N}^{2} \lt \infty

根據定義,最⼤似然解 θML\theta_{ML} 是負對數似然函數的⼀個駐點,因此滿⾜:
θ{1Nn=1Nlnp(xNθ)}θML=0(2.76) \left . \frac{\partial}{\partial \theta} \left\{\frac{1}{N}\sum_{n=1}^{N}- \ln p(x_N|\theta) \right\} \right|_{\theta_{ML}} = 0\tag{2.76}
交換導數與求和,取極限 NN \to \infty ,可以尋找最⼤似然解對應於尋找回歸函數的根。 於是可以應⽤ Robbins-Monro⽅法,此時它的形式爲:
θ(N)=θ(N1)+αN1θ(N1)[lnp(xNθ(N1))](2.77) \theta^{(N)} = \theta^{(N-1)} + \alpha_{N-1} \frac{\partial}{\partial\theta^{(N-1)}} \left [-\ln p(x_N |\theta^{(N-1)}) \right ]\tag{2.77}

七,⾼斯分佈的貝葉斯推斷

考慮⼀個⼀元⾼斯隨機變量 x\mathbf{x},我們假設⽅差 σ2\sigma^2 是已知的,其任務是從⼀組 NN 次觀測 x=(x1,,xN)T\mathbf{x}=(x_1,\dots, x_N)^T 中推斷均值 μ\mu。 似然函數,即給定 μ\mu 的情況下,觀測數據集出現的概率。它可以看成 μ\mu 的函數,由公式(2.78)給出。
p(xμ)=n=1Np(xnμ)=1(2πσ2)N2exp{12σ2n=1N(xnμ)2}(2.78) p(\mathbf{x}|\mu) = \prod_{n=1}^{N}p(x_n|\mu) = \frac{1}{\left(2 \pi \sigma^{2}\right)^{\frac{N}{2}}} \exp \left\{-\frac{1}{2 \sigma^{2}}\sum_{n=1}^{N}(x_n-\mu)^{2}\right\}\tag{2.78}
注意:似然函數 p(xμ)p(\mathbf{x}|\mu) 不是 μ\mu 的概率密度,沒有被歸⼀化。

如圖2.16,在⾼斯分佈的情形中,迴歸函數的形式。
迴歸函數的形式
令先驗概率分佈爲:
p(μ)=N(μμ0,σ02)(2.79) p(\mu) = \mathcal{N}\left(\mu | \mu_0, \sigma_{0}^{2}\right)\tag{2.79}
從⽽後驗概率爲:
p(μx)=N(μμN,σN2)(2.80) p(\mu | \mathbf{x}) = \mathcal{N}\left(\mu | \mu_N, \sigma_{N}^{2}\right)\tag{2.80}
其中,
μN=σ2Nσ02+σ2μ0+Nσ02Nσ02+σ2μML \mu_N = \frac{\sigma^2}{N\sigma_{0}^2 + \sigma^2}\mu_0 + \frac{N\sigma_{0}^2}{N\sigma_{0}^2 + \sigma^2}\mu_{ML}

1σN2=1σ02+Nσ2 \frac{1}{\sigma_{N}^{2}} = \frac{1}{\sigma_{0}^{2}} + \frac{N}{\sigma^{2}}

μML=1Nn=1Nxn \mu_{ML} = \frac{1}{N}\sum_{n=1}^{N}x_n

圖2.17,⾼斯分佈均值的貝葉斯推斷。
⾼斯分佈均值的貝葉斯推斷
現在假設均值是已知的,我們要推斷⽅差。令 λ1σ2\lambda \equiv \frac{1}{\sigma^{2}}λ\lambda 的似然函數的形式爲:

p(xλ)=n=1NN(xnμ,λ1)λN2exp{λ2n=1N(xnμ)2}(2.81) p(\mathbf{x}|\lambda) = \prod_{n=1}^{N}\mathcal{N}(x_n|\mu, \lambda^{-1}) \propto \lambda^{\frac{N}{2}} \exp \left\{-\frac{\lambda}{2}\sum_{n=1}^{N}(x_n-\mu)^{2}\right\}\tag{2.81}
對應的共軛先驗因此應該正⽐於 λ\lambda 的冪指數,也正⽐於 λ\lambda 的線性函數的指數。這對應於 Gamma分佈,定義爲:
Gam(λa,b)=1Γ(a)baλa1exp(bλ)(2.82) \text{Gam}(\lambda|a,b) = \frac{1}{\Gamma(a)}b^{a}\lambda^{a-1}\exp (-b\lambda)\tag{2.82}
均值協⽅差分別爲:
E[λ]=ab(2.83) \mathbb{E}[\lambda] = \frac{a}{b}\tag{2.83}

var[λ]=ab2(2.84) \text{var}[\lambda] = \frac{a}{b^2}\tag{2.84}

如圖2.18~2.20,不同的 aabb 的情況下 Gamma分佈的圖像。
a=b=0.1
a=b=1
a=4,b=6
考慮⼀個先驗分佈 Gam(λa0,b0)\text{Gam}(\lambda|a_0,b_0)。如果乘以公式(2.81)給出的似然函數,那麼即可得到後驗分佈:
p(λx)λa01λN2exp{b0λλ2n=1N(xnμ)2}(2.85) p(\lambda | \mathbf{x}) \propto \lambda^{a_0-1} \lambda^{\frac{N}{2}} \exp \left\{-b_0 \lambda -\frac{\lambda}{2}\sum_{n=1}^{N}(x_n-\mu)^{2}\right\}\tag{2.85}
我們可以把它看成形式爲 Gam(λaN,bN)\text{Gam}(\lambda|a_N,b_N)Gamma分佈,其中
aN=a0+N2 a_N = a_0 + \frac{N}{2}

bN=b012n=1N(xnμ)2=b0+N2σML2 b_N = b_0 \frac{1}{2}\sum_{n=1}^{N}(x_n-\mu)^2 = b_0 + \frac{N}{2}\sigma_{ML}^{2}

現在假設均值精度都是未知的。爲了找到共軛先驗,考慮似然函數對於 μ\muλ\lambda 的依賴關係:
p(xμ,λ)=n=1N(λ2π)12exp{λ2(xnμ)2}[λ12exp(λμ22)]Nexp{λμn=1Nxnλ2n=1Nxn2}(2.86) \begin{aligned} p(\mathbf{x}|\mu,\lambda) &= \prod_{n=1}^{N} \left(\frac{\lambda}{2\pi} \right)^{\frac{1}{2}} \exp \left\{-\frac{\lambda}{2}(x_n-\mu)^{2}\right\} \\ &\propto \left[\lambda^{\frac{1}{2}} \exp\left(-\frac{\lambda \mu^{2}}{2}\right) \right]^{N} \exp \left\{\lambda \mu \sum_{n=1}^{N}x_n - \frac{\lambda}{2}\sum_{n=1}^{N}x_{n}^{2}\right\} \end{aligned}\tag{2.86}
假設先驗分佈的形式爲:
p(μ,λ)=exp{βλ2(μcβ)2}λβ2exp{(dc22β)λ}[λ12exp(λμ22)]βexp{cλμdλ}(2.87) \begin{aligned} p(\mu,\lambda) &= \exp \left\{-\frac{\beta \lambda}{2}\left(\mu-\frac{c}{\beta}\right)^2 \right\} \lambda^{\frac{\beta}{2}} \exp \left\{-\left(d-\frac{c^2}{2\beta}\right)\lambda \right\} \\ &\propto \left[\lambda^{\frac{1}{2}} \exp\left(-\frac{\lambda \mu^{2}}{2}\right) \right]^{\beta} \exp \left\{c\lambda \mu - d\lambda\right\} \end{aligned}\tag{2.87}
其 中 c,dc, dβ\beta 都是常數。

歸⼀化的先驗概率的形式爲:
p(μ,λ)=N(μμ0,(βλ)1)Gam(λa,b)(2.88) p(\mu,\lambda) = \mathcal{N}(\mu|\mu_0, (\beta \lambda)^{-1})\text{Gam}(\lambda|a,b)\tag{2.88}
這被稱爲正態-Gamma分佈或者⾼斯-Gamma分佈。如圖2.21:
正態-Gamma分佈
對於 DD 維向量 x\boldsymbol{x} 的多元⾼斯分佈 N(xμ,Λ1)\mathcal{N}(\boldsymbol{x|\mu, \Lambda}^{−1}),假設精度已知,則均值 μ\boldsymbol{\mu} 的共軛先驗分佈仍然是⾼斯分佈。對於已知均值未知精度矩陣 Λ\boldsymbol{\Lambda} 的情形,共軛先驗是**Wishart分佈**,定義爲:
W(ΛW,ν)=BΛνD12exp(12Tr(W1Λ))(2.89) \mathcal{W}(\mathbf{\Lambda} | \boldsymbol{W}, \nu)=B|\boldsymbol{\Lambda}|^{\frac{\nu-D-1}{2}} \exp \left(-\frac{1}{2} \operatorname{Tr}\left(\boldsymbol{W}^{-1} \boldsymbol{\Lambda}\right)\right)\tag{2.89}

其中 ν\nu 被稱爲分佈的⾃由度數量(degrees of freedom),W\boldsymbol{W} 是⼀個 D×DD \times D 的標量矩陣,Tr()\operatorname{Tr}(·) 表⽰矩陣的。歸⼀化係數 BB 爲:
B(W,ν)=Wν2(2νD2πD(D1)4i=1DΓ(ν+1i2))1(2.90) B(\boldsymbol{W}, \nu)=|\boldsymbol{W}|^{-\frac{\nu}{2}}\left(2^{\frac{\nu D}{2}} \pi^{\frac{D(D-1)}{4}} \prod_{i=1}^{D} \Gamma\left(\frac{\nu+1-i}{2}\right)\right)^{-1}\tag{2.90}
如果均值和精度都是未知的,那麼類似於⼀元變量的推理⽅法,共軛先驗爲:
p(μ,Λμ0,β,W,ν)=N(μμ0,(βΛ)1)W(ΛW,ν)(2.91) p(\boldsymbol{\mu,\Lambda|\mu}_0,\beta,\boldsymbol{W}, \nu) = \mathcal{N}(\boldsymbol{\mu|\mu}_0, (\beta \boldsymbol{\Lambda})^{-1})\mathcal{W}(\mathbf{\Lambda} | \boldsymbol{W}, \nu)\tag{2.91}
這被稱爲正態-Wishart分佈或者⾼斯-Wishart分佈

八,學生 t\mathbf{t} 分佈

如果有⼀個⼀元⾼斯分佈 N(xμ,τ1)\mathcal{N}\left(x | \mu, \tau^{-1}\right) 和⼀個 Gamma先驗分佈 Gam(τa,b)\text{Gam}(\tau|a, b),把精度積分出來,便可以得到 xx 的邊緣分佈,形式爲:
p(xμ,a,b)=0N(xμ,τ1)Gam(τa,b)dτ=0bae(br)τa1Γ(a)(τ2π)12exp{τ2(xμ)2}dτ=baΓ(a)(12π)12[b+(xμ)22]a12Γ(a+12)(2.92) \begin{aligned} p(x | \mu, a, b) &=\int_{0}^{\infty} \mathcal{N}\left(x | \mu, \tau^{-1}\right) \operatorname{Gam}(\tau | a, b) \mathrm{d} \tau \\ &=\int_{0}^{\infty} \frac{b^{a} e^{(-b r)} \tau^{a-1}}{\Gamma(a)}\left(\frac{\tau}{2 \pi}\right)^{\frac{1}{2}} \exp \left\{-\frac{\tau}{2}(x-\mu)^{2}\right\} \mathrm{d} \tau \\ &=\frac{b^{a}}{\Gamma(a)}\left(\frac{1}{2 \pi}\right)^{\frac{1}{2}}\left[b+\frac{(x-\mu)^{2}}{2}\right]^{-a-\frac{1}{2}} \Gamma\left(a+\frac{1}{2}\right) \end{aligned}\tag{2.92}
形如 p(xμa,b)p(x|\mu a,b) 如下:
St(xμ,λ,ν)=Γ(ν2+12)Γ(ν2)(λπν)12[1+λ(xμ)2ν]ν212(2.93) \text{St}(x|\mu,\lambda,\nu) = \frac{\Gamma(\frac{\nu}{2}+\frac{1}{2})}{\Gamma(\frac{\nu}{2})}\left(\frac{\lambda}{\pi \nu}\right)^{\frac{1}{2}}\left[1+\frac{\lambda(x-\mu)^2}{\nu}\right]^{-\frac{\nu}{2}-\frac{1}{2}}\tag{2.93}
稱爲學生 t 分佈Student's t-distribution)。 參數 λ\lambda 有時被稱爲 t\mathbf{t} 分佈的精度precision), 即使它通常不等於⽅差的倒數。參數 ν\nu 被稱爲⾃由度degrees of freedom)。如圖2.22:
學生t分佈
學生 t\mathbf{t} 分佈的⼀個重要性質魯棒性(robustness),即對於數據集⾥的⼏個離羣點outlier的出現,分佈不會像⾼斯分佈那樣敏感。

圖 2.23,從⼀個⾼斯分佈中抽取的30個數據點的直⽅圖,以及得到的最⼤似然擬合。紅⾊曲線表⽰使⽤ t\mathbf{t} 分佈進⾏的擬合,綠⾊曲線(⼤部分隱藏在了紅⾊曲 線後⾯)表⽰使⽤⾼斯分佈進⾏的擬合。由於 t\mathbf{t} 分佈將⾼斯分佈作爲⼀種特例,因此它給出了與⾼斯分佈⼏乎相同的解。
t分佈與高斯分佈a
圖 2.24,與圖2.23同樣的數據集,但是多了三個異常數據點。這幅圖展⽰了⾼斯分佈(綠⾊曲線)是如 何被異常點強烈地⼲擾的,⽽ t\mathbf{t} 分佈(紅⾊曲線)相對不受影響。
t分佈與高斯分佈b
推⼴到多元⾼斯分佈 N(xμ,Λ)\mathcal{N}(\boldsymbol{x|\mu, \Lambda}) 來得到對應的多元學生 t\mathbf{t} 分佈,形式爲:
St(xμ,Λ,ν)=0N(xμ,(ηΛ)1)Gam(ην2,ν2)dν(2.94) \operatorname{St}(\boldsymbol{x} | \boldsymbol{\mu}, \boldsymbol{\Lambda}, \nu)=\int_{0}^{\infty} \mathcal{N}\left(\boldsymbol{x} | \boldsymbol{\mu},(\eta \boldsymbol{\Lambda})^{-1}\right) \operatorname{Gam}\left(\eta | \frac{\nu}{2}, \frac{\nu}{2}\right) \mathrm{d} \nu \tag{2.94}
求積分,可得:
St(xμ,Λ,,ν)=Γ(ν2+D2)Γ(ν2)(Λ(πν)D)12[1+Δ2ν]ν2D2(2.95) \text{St}(\boldsymbol{x} | \boldsymbol{\mu}, \boldsymbol{\Lambda},,\nu) = \frac{\Gamma(\frac{\nu}{2}+\frac{D}{2})}{\Gamma(\frac{\nu}{2})}\left(\frac{|\boldsymbol{\Lambda}|}{(\pi \nu)^D}\right)^{\frac{1}{2}}\left[1+\frac{\Delta^{2}}{\nu}\right]^{-\frac{\nu}{2}-\frac{D}{2}}\tag{2.95}
其中 DDx\boldsymbol{x} 的維度,Δ2\Delta^2平⽅馬⽒距離,定義爲:
Δ2=(xμ)TΛ(xμ)(2.96) \Delta^2 = (\boldsymbol{x-\mu})^T \boldsymbol{\Lambda} (\boldsymbol{x-\mu})\tag{2.96}
多元變量形式的學生 t\mathbf{t} 分佈,滿⾜下⾯的性質:

1)E[x]=μ\mathbb{E}[\boldsymbol{x}] = \boldsymbol{\mu} 如果 ν>1\nu \gt 1

2)cov[x]=νν2Λ1\text{cov}[\boldsymbol{x}] = \frac{\nu}{\nu-2}\boldsymbol{\Lambda}^{-1} 如果 ν>2\nu \gt 2

3)mode[x]=μ\text{mode}[\boldsymbol{x}] = \boldsymbol{\mu}

九,週期變量

考察⼀個⼆維單位向量 x1,,xN\boldsymbol{x}_1,\dots,\boldsymbol{x}_N , 其中 xn=1||\boldsymbol{x}_n|| = 1n=1,,Nn = 1,\dots , N , 如圖2.25所⽰。
⼆維單位向量
可以對向量 {xn}\{\boldsymbol{x}_n\} 求平均,可得
xˉ=1Nn=1Nxn \bar{\boldsymbol{x}} = \frac{1}{N}\sum_{n=1}^{N}\boldsymbol{x}_n
注意,xˉ\bar{\boldsymbol{x}} 通常位於單位圓的內部。

xˉ\bar{\boldsymbol{x}} 對應的角度 θˉ\bar{\theta} 爲:
θˉ=tan1{nsinθnncosθn}(2.97) \bar{\theta} = \tan^{-1} \left\{\frac{\sum_{n}\sin \theta_n}{\sum_{n}\cos \theta_n} \right\}\tag{2.97}
考慮的週期概率分佈 p(θ)p(\theta) 的週期爲 2π2\piθ\theta 上的任何概率密度 p(θ)p(\theta) ⼀定⾮負, 積分等於1,並且⼀定是週期性的。因此, p(θ)p(\theta) ⼀定滿⾜下⾯三個條件:

1) p(θ)0p(\theta) \ge 0

2) 02πp(θ)dθ=1\int_{0}^{2\pi} p(\theta) \mathrm{d}\theta = 1

3) p(θ+2π)=p(θ)p(\theta + 2\pi) = p(\theta)

考慮兩個變量 x=(x1,x2)\boldsymbol{x} = (x_1 , x_2) 的⾼斯分佈,均值爲 μ=(μ1,μ2)\boldsymbol{\mu} = (\mu_1, \mu_2),協⽅差矩陣爲 Σ=σ2I\boldsymbol{\Sigma} = \sigma^2 \boldsymbol{I} ,其中 I\boldsymbol{I} 是⼀個 2×22\times2 的單位矩陣。因此有:
p(x1,x2)=12πσ2exp{(x1μ1)2+(x2μ2)22σ2}(2.98) p(x_1,x_2) = \frac{1}{2\pi \sigma^{2}} \exp \left\{-\frac{(x_1-\mu_1)^2+(x_2-\mu_2)^{2}}{2\sigma^{2}}\right\}\tag{2.98}
von Mises分佈(環形正態分佈circular normal)):在單位圓 r=1r=1上的概率分佈 p(θ)p(\theta) 的最終表達式:
p(θθ0,m)=12πI0(m)exp{mcos(θθ0)}(2.99) p(\theta|\theta_0,m) = \frac{1}{2\pi I_0(m)} \exp \left\{m\cos(\theta-\theta_0)\right\}\tag{2.99}
其中,參數 θ0\theta_0 對應於分佈的均值,mm 被稱爲 concentration參數,類似於⾼斯分佈的⽅差的倒數(精度)。歸⼀化係數包含項 I0(m)I_0 (m),是零階修正的第⼀類Bessel函數Abramowitz and Stegun, 1965), 定義爲:
I0(m)=12π02πexp{mcosθ}dθ(2.100) I_0(m) = \frac{1}{2\pi} \int_{0}^{2\pi}\exp\{m\cos \theta\}\mathrm{d}\theta\tag{2.100}
如圖2.26~2.27,von Mises分佈的圖像。
笛卡爾座標系

極座標系
如圖2.28, Bessel函數 I0(m)I_0 (m) 的圖像。
Bessel函數
現在考慮 von Mises分佈 的參數 θ0\theta_0 和參數 mm 的最⼤似然估計。對數似然函數爲:
lnp(Dθ0,m)=Nln(2π)lnI0(m)+mn=1Ncos(θnθ0)(2.101) \ln p(\mathcal{D} | \theta_0,m)=-N\ln (2\pi)-\ln I_0(m)+m\sum_{n=1}^{N}\cos(\theta_n-\theta_0)\tag{2.101}
令其關於 θ0\theta_0 的導數等於零,從⽽可以得到:
θ0ML=tan1{nsinθnncosθn}(2.102) \theta_{0}^{ML} = \tan^{-1} \left\{\frac{\sum_{n}\sin \theta_n}{\sum_{n}\cos \theta_n} \right\}\tag{2.102}
關於 mm 最⼤化公式(2.101),使⽤ I0(m)=I1(m)I_0^{\prime}(m)=I_1(m)Abramowitz and Stegun, 1965),從⽽可以得到:
A(mNL)=1Nn=1Ncos(θnθ0ML)(2.103) A(m_{NL})=\frac{1}{N}\sum_{n=1}^{N}\cos(\theta_{n}-\theta_{0}^{ML})\tag{2.103}

A(m)=I1(m)I0(m) A(m)=\frac{I_1(m)}{I_0(m)}
可以得到:
A(mML)=(1Nn=1Ncosθn)cosθ0ML+(1Nn=1Nsinθn)sinθ0ML(2.104) A(m_{ML})=\left(\frac{1}{N}\sum_{n=1}^{N}\cos \theta_{n}\right)\cos \theta_{0}^{ML} + \left(\frac{1}{N}\sum_{n=1}^{N}\sin \theta_{n}\right)\sin \theta_{0}^{ML}\tag{2.104}

如圖2.29, 函數 A(m)A (m) 的圖像。
Am函數

十,混合高斯模型

通過將更基本的概率分佈(例如⾼斯分佈)進⾏線性組合的這樣的疊加⽅法,可以被形式化爲概率模型,被稱爲混合模型mixture distributions)(McLachlan and Basford, 1988; McLachlan and Peel, 2000)。

考慮 KK 個⾼斯概率密度的疊加,形式爲:
p(x)=k=1KπkN(xμk,Σk)(2.105) p(\boldsymbol{x}) = \sum_{k=1}^{K} \pi_{k} \mathcal{N}(\boldsymbol{x} |\boldsymbol{\mu_{k}}, \boldsymbol{\Sigma}_{k})\tag{2.105}
這被稱爲混合⾼斯mixture of Gaussians)。 每⼀個⾼斯概率密度 N(xμk,Σk)\mathcal{N}(\boldsymbol{x} |\boldsymbol{\mu_{k}}, \boldsymbol{\Sigma}_{k}) 被稱爲混合分佈的⼀個成分component),並且有⾃⼰的均值 μk\boldsymbol{\mu_{k}} 和協⽅差 Σk\boldsymbol{\Sigma}_{k}。參數 πk\pi_{k} 被稱爲混合係數mixing coefficients),並且滿足以下條件:

1)k=1Kπk=1\sum_{k=1}^{K} \pi_{k}=1
2)0πk10\le \pi_{k} \le 1

如圖2.30,每個混合分量的常數概率密度輪廓線,其中三個分量分別被標記爲紅⾊、藍⾊和綠⾊, 且混合係數的值在每個分量的下⽅給出。
概率密度輪廓線
如圖2.31, 混合分佈的邊緣概率密度 p(x)p(\boldsymbol{x}) 的輪廓線。
邊緣概率密度輪廓線
如圖2.32, 概率分佈 p(x)p(\boldsymbol{x}) 的⼀個曲⾯圖。
概率密度曲面圖

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章