本系列爲《模式識別與機器學習》的讀書筆記。
一,多元高斯分佈
考慮⾼斯分佈 的⼏何形式,⾼斯對於 x \boldsymbol{x} x 的依賴是通過下⾯形式的⼆次型:
Δ 2 = ( x − μ ) T Σ − 1 ( x − μ ) (2.30)
\Delta^{2} = (\boldsymbol{x} - \boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x} - \boldsymbol{\mu})\tag{2.30}
Δ 2 = ( x − μ ) T Σ − 1 ( x − μ ) ( 2 . 3 0 )
其中,Δ \Delta Δ 被叫做 μ \boldsymbol{\mu} μ 和 x \boldsymbol{x} x 之間的馬⽒距離 (Mahalanobis distance
)。 當 Σ \boldsymbol{\Sigma} Σ 是單位矩陣時,就變成了歐式距離 。對於 x \boldsymbol{x} x 空間中這個⼆次型是常數的曲⾯,⾼斯分佈也是常數。
現在考慮協⽅差矩陣 的特徵向量⽅程 :
Σ μ i = λ i μ i (2.31)
\boldsymbol{\Sigma} \boldsymbol{\mu}_i = \lambda_{i} \boldsymbol{\mu}_{i}\tag{2.31}
Σ μ i = λ i μ i ( 2 . 3 1 )
其中 i = 1 , … , D i = 1,\dots , D i = 1 , … , D 。由於 Σ \boldsymbol{\Sigma} Σ 是實對稱矩陣 ,因此它的特徵值也是實數,並且特徵向量可以被選成單位正交 的,即:
μ i T μ j = I i j (2.32)
\boldsymbol{\mu}_{i}^{T} \boldsymbol{\mu}_{j} = I_{ij}\tag{2.32}
μ i T μ j = I i j ( 2 . 3 2 )
其中 I i j I_{ij} I i j 是單位矩陣的第 i , j i, j i , j 個元素,滿⾜:
I i j = { 1 , 如 果 i = j 0 , 其 他 情 況 (2.33)
I_{i j}=\left\{\begin{array}{l}{1,如果 i=j} \\ {0,其他情況}\end{array}\right. \tag{2.33}
I i j = { 1 , 如 果 i = j 0 , 其 他 情 況 ( 2 . 3 3 )
協⽅差矩陣 Σ \boldsymbol{\Sigma} Σ 可以表⽰成特徵向量的展開的形式:
Σ = ∑ i = 1 D λ i μ i μ i T (2.34)
\boldsymbol{\Sigma} = \sum_{i=1}^{D} \lambda_i \boldsymbol{\mu}_{i}\boldsymbol{\mu}_{i}^{T}\tag{2.34}
Σ = i = 1 ∑ D λ i μ i μ i T ( 2 . 3 4 )
協⽅差矩陣的逆矩陣 Σ − 1 \boldsymbol{\Sigma}^{-1} Σ − 1 可以表⽰成特徵向量的展開的形式:
Σ − 1 = ∑ i = 1 D 1 λ i μ i μ i T (2.35)
\boldsymbol{\Sigma}^{-1} = \sum_{i=1}^{D} \frac{1}{\lambda_i} \boldsymbol{\mu}_{i}\boldsymbol{\mu}_{i}^{T}\tag{2.35}
Σ − 1 = i = 1 ∑ D λ i 1 μ i μ i T ( 2 . 3 5 )
⼆次型公式(2.30)即可表示爲:
Δ 2 = ∑ i = 1 D y i 2 λ i (2.36)
\Delta^{2} = \sum_{i=1}^{D} \frac{y_{i}^{2}}{\lambda_{i}}\tag{2.36}
Δ 2 = i = 1 ∑ D λ i y i 2 ( 2 . 3 6 )
其中,y i 2 = u i T ( x − μ ) y_{i}^{2} = \boldsymbol{u_i^T} (\boldsymbol{x} - \boldsymbol{\mu}) y i 2 = u i T ( x − μ ) 。
把 { y i } \{y_i\} { y i } 表⽰成單位正交向量 μ i \boldsymbol{\mu_i} μ i 關於原始的 x i x_i x i 座標經過平移和旋轉後形成的新的座標系。定義向量 y = ( y 1 , … , y D ) T \boldsymbol{y} = (y_1,\dots, y_D)^T y = ( y 1 , … , y D ) T ,即有:
y = U ( x − μ ) (2.37)
\boldsymbol {y} = \boldsymbol{U} (\boldsymbol{x} - \boldsymbol{\mu})\tag{2.37}
y = U ( x − μ ) ( 2 . 3 7 )
其中 U \boldsymbol{U} U 是⼀個矩陣,它的⾏是向量 u i T \boldsymbol{u}_{i}^{T} u i T 。從公式(2.32)可以看出 U \boldsymbol{U} U 是⼀個正交矩陣 , 即它滿⾜性質 U U T = I \boldsymbol{U}\boldsymbol{U}^T = \boldsymbol{I} U U T = I ,因此也滿⾜ U T U = I \boldsymbol{U}^T \boldsymbol{U} = \boldsymbol{I} U T U = I ,其中 I \boldsymbol{I} I 是單位矩陣。
⼀個特徵值嚴格⼤於零的矩陣被稱爲正定(positive definite
)矩陣 。偶爾遇到⼀個或者多個特徵值爲零的⾼斯分佈,那種情況下分佈是奇異的,被限制在 了⼀個低維的⼦空間中。如果所有的特徵值都是⾮負的,那麼這個矩陣被稱爲半正定(positive semidefine
)矩陣 。
如圖2.12,紅⾊曲線表⽰⼆維空間 x = ( x 1 , x 2 ) \boldsymbol{x} = (x_1 , x_2) x = ( x 1 , x 2 ) 的⾼斯分佈的常數概率密度的橢圓⾯, 它表⽰的概率密度爲 exp ( − 1 2 ) \exp(−\frac{1}{2}) exp ( − 2 1 ) ,值是在 x = μ \boldsymbol{x} = \boldsymbol{\mu} x = μ 處計算的。橢圓的軸由協⽅差矩陣的特徵向量 μ i \mu_i μ i 定義,對應的特徵值爲 λ i \lambda_i λ i 。
現在考慮在由 y i y_i y i 定義的新座標系下⾼斯分佈的形式。 從 x \boldsymbol{x} x 座標系到 y \boldsymbol{y} y 座標系, 我們有⼀ 個 Jacobian
矩陣 J \boldsymbol{J} J ,它的元素爲:
J i j = ∂ x i ∂ j j = U i j (2.38)
\boldsymbol{J}_{ij} = \frac{\partial {x_i}}{\partial {j_j}} = U_{ij}\tag{2.38}
J i j = ∂ j j ∂ x i = U i j ( 2 . 3 8 )
其中 U j i U_{ji} U j i 是矩陣 U T \boldsymbol{U}^T U T 的元素。使⽤矩陣 U \boldsymbol{U} U 的單位正交性質,我們看到 Jacobian
矩陣 ⾏列式的平⽅爲:
∣ J 2 ∣ = ∣ U T ∣ 2 = ∣ U T ∣ ∣ U ∣ = ∣ U T U ∣ = ∣ I ∣ = 1 (2.39)
| \boldsymbol{J}^{2} | = |\boldsymbol{U}^{T}|^{2} = |\boldsymbol{U}^{T}||\boldsymbol{U}| = |\boldsymbol{U}^{T}\boldsymbol{U}| = |\boldsymbol{I}| = 1\tag{2.39}
∣ J 2 ∣ = ∣ U T ∣ 2 = ∣ U T ∣ ∣ U ∣ = ∣ U T U ∣ = ∣ I ∣ = 1 ( 2 . 3 9 )
從而可知,∣ J ∣ = 1 |\boldsymbol{J}|=1 ∣ J ∣ = 1 ,並且,⾏列式 ∣ Σ ∣ |\boldsymbol{\Sigma}| ∣ Σ ∣ 的協⽅差矩陣可以寫成特徵值的乘積,因此:
∣ Σ ∣ 1 2 = ∏ j = 1 D λ j 1 2 (2.40)
|\boldsymbol{\Sigma}|^{\frac{1}{2}} = \prod_{j=1}^{D} \lambda_{j}^{\frac{1}{2}}\tag{2.40}
∣ Σ ∣ 2 1 = j = 1 ∏ D λ j 2 1 ( 2 . 4 0 )
因此在 y \boldsymbol{y} y 座標系中,⾼斯分佈的形式爲:
p ( y ) = p ( x ) ∣ J ∣ = ∏ j = 1 D 1 ( 2 π λ j ) 1 2 exp { − y i 2 2 λ j } (2.41)
p(\boldsymbol{y}) = p(\boldsymbol{x})|\boldsymbol{J}| = \prod_{j=1}^{D} \frac{1}{(2 \pi \lambda_{j})^{\frac{1}{2}}} \exp \left \{- \frac{y_{i}^2}{2\lambda_j} \right \}\tag{2.41}
p ( y ) = p ( x ) ∣ J ∣ = j = 1 ∏ D ( 2 π λ j ) 2 1 1 exp { − 2 λ j y i 2 } ( 2 . 4 1 )
這是 D D D 個獨⽴⼀元⾼斯分佈的乘積。
在 y \boldsymbol{y} y 座標系中,概率分佈的積分爲:
∫ p ( y ) d y = ∏ j = 1 D ∫ − ∞ ∞ 1 ( 2 π λ j ) 1 2 exp { − y i 2 2 λ j } d y j = 1 (2.42)
\int p(\boldsymbol{y}) \mathrm{d} \boldsymbol{y} = \prod_{j=1}^{D} \int_{-\infty}^{\infty} \frac{1}{(2 \pi \lambda_{j})^{\frac{1}{2}}} \exp \left \{- \frac{y_{i}^2}{2\lambda_j} \right \} \mathrm{d} y_j = 1\tag{2.42}
∫ p ( y ) d y = j = 1 ∏ D ∫ − ∞ ∞ ( 2 π λ j ) 2 1 1 exp { − 2 λ j y i 2 } d y j = 1 ( 2 . 4 2 )
⾼斯分佈 下 x \boldsymbol{x} x 的期望爲:
E [ x ] = 1 ( 2 π ) D 2 1 ∣ Σ ∣ 1 2 ∫ exp { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } x d x = 1 ( 2 π ) D 2 1 ∣ Σ ∣ 1 2 ∫ exp { − 1 2 z T Σ − 1 z } ( z + μ ) d z (2.43)
\begin{aligned} \mathbb{E}[\boldsymbol{x}] &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right\} \boldsymbol{x} \mathrm{d} \boldsymbol{x} \\ &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}\boldsymbol{z}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{z}\right\} (\boldsymbol{z+\mu}) \mathrm{d} \boldsymbol{z} \end{aligned}\tag{2.43}
E [ x ] = ( 2 π ) 2 D 1 ∣ Σ ∣ 2 1 1 ∫ exp { − 2 1 ( x − μ ) T Σ − 1 ( x − μ ) } x d x = ( 2 π ) 2 D 1 ∣ Σ ∣ 2 1 1 ∫ exp { − 2 1 z T Σ − 1 z } ( z + μ ) d z ( 2 . 4 3 )
其中,z = x − μ \boldsymbol{z = x - \mu} z = x − μ 。注意到指數位置是 z \boldsymbol{z} z 的偶函數,並且由於積分區間爲 ( − ∞ , ∞ ) (−\infty, \infty) ( − ∞ , ∞ ) ,因此在因⼦ ( z + μ ) (\boldsymbol{z + \mu}) ( z + μ ) 中的 z \boldsymbol{z} z 中的項會由於對稱性變爲零。因此 E [ x ] = μ \mathbb{E}[\boldsymbol{x}] = \boldsymbol{\mu} E [ x ] = μ 。稱 μ \boldsymbol{\mu} μ 爲⾼斯分佈的均值 。
現在考慮⾼斯分佈的⼆階矩。對於多元⾼斯分佈,有 D 2 D^2 D 2 個由 E [ x i x j ] \mathbb{E}[x_i x_j] E [ x i x j ] 給出的⼆階矩,可以聚集在⼀起組成矩陣 E [ x x T ] \mathbb{E}[\boldsymbol{x}\boldsymbol{x}^T ] E [ x x T ] 。
E [ x x T ] = 1 ( 2 π ) D 2 1 ∣ Σ ∣ 1 2 ∫ exp { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } x x T d x = 1 ( 2 π ) D 2 1 ∣ Σ ∣ 1 2 ∫ exp { − 1 2 z T Σ − 1 z } ( z + μ ) ( z + μ ) T d z (2.44)
\begin{aligned} \mathbb{E}[\boldsymbol{x}\boldsymbol{x}^{T}] &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right\} \boldsymbol{x} \boldsymbol{x}^{T}\mathrm{d} \boldsymbol{x} \\ &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}\boldsymbol{z}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{z}\right\} (\boldsymbol{z+\mu})(\boldsymbol{z+\mu})^{T} \mathrm{d} \boldsymbol{z} \end{aligned}\tag{2.44}
E [ x x T ] = ( 2 π ) 2 D 1 ∣ Σ ∣ 2 1 1 ∫ exp { − 2 1 ( x − μ ) T Σ − 1 ( x − μ ) } x x T d x = ( 2 π ) 2 D 1 ∣ Σ ∣ 2 1 1 ∫ exp { − 2 1 z T Σ − 1 z } ( z + μ ) ( z + μ ) T d z ( 2 . 4 4 )
其中,z = x − μ \boldsymbol{z = x - \mu} z = x − μ ,z = ∑ j = 1 D y i u j \boldsymbol{z} = \sum_{j=1}^{D} y_i \boldsymbol{u_j} z = ∑ j = 1 D y i u j ,y i = u j T z y_i = \boldsymbol{u_j}^{T}\boldsymbol{z} y i = u j T z 。
由此可以推導出:
E [ x x T ] = μ u T + Σ (2.45)
\mathbb{E}[\boldsymbol{x}\boldsymbol{x}^{T}] = \boldsymbol{\mu}\boldsymbol{u}^{T} + \boldsymbol{\Sigma}\tag{2.45}
E [ x x T ] = μ u T + Σ ( 2 . 4 5 )
隨機變量 x \boldsymbol{x} x 的協⽅差 (covariance
),定義爲:
var [ x ] = E [ ( x − E [ x ] ) ( x − E [ x ] ) T ] (2.46)
\text{var}[\boldsymbol{x}] = \mathbb{E}[(\boldsymbol{x} - \mathbb{E}[\boldsymbol{x}])(\boldsymbol{x} - \mathbb{E}[\boldsymbol{x}])^{T}]\tag{2.46}
var [ x ] = E [ ( x − E [ x ] ) ( x − E [ x ] ) T ] ( 2 . 4 6 )
對於⾼斯分佈這⼀特例,我們可以使⽤ E [ x ] = μ \mathbb{E}[\boldsymbol{x}] = \boldsymbol{\mu} E [ x ] = μ 以及公式(2.45)的結果,得到:
var [ x ] = Σ (2.47)
\text{var}[\boldsymbol{x}] = \boldsymbol{\Sigma}\tag{2.47}
var [ x ] = Σ ( 2 . 4 7 )
由於參數 Σ \boldsymbol{\Sigma} Σ 公式了⾼斯分佈下 x \boldsymbol{x} x 的協⽅差,因此它被稱爲協⽅差矩陣 。
二,條件⾼斯分佈
多元⾼斯分佈的⼀個重要性質 :如果兩組變量是聯合⾼斯分佈,那麼以⼀組變量爲條件, 另⼀組變量同樣是⾼斯分佈。
假設 x \boldsymbol{x} x 是⼀個服從⾼斯分佈 N ( x ∣ μ , Σ ) \mathcal{N}(\boldsymbol{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) N ( x ∣ μ , Σ ) 的 D D D 維向量。我們把 x \boldsymbol{x} x 劃分成兩個不相交的⼦集 x a \boldsymbol{x}_a x a 和 x b \boldsymbol{x}_b x b 。 不失⼀般性, 令 x a \boldsymbol{x}_a x a 爲 x \boldsymbol{x} x 的前 M M M 個分量, 令 x b \boldsymbol{x}_b x b 爲剩餘的 D − M D − M D − M 個分量,因此
x = ( x a x b )
\boldsymbol{x} = \dbinom{\boldsymbol{x}_a}{\boldsymbol{x}_b}
x = ( x b x a )
同理,對應的對均值向量 μ \boldsymbol{\mu} μ 的劃分,即
μ = ( μ a μ b )
\boldsymbol{\mu} = \dbinom{\boldsymbol{\mu}_a}{\boldsymbol{\mu}_b}
μ = ( μ b μ a )
協⽅差矩陣 Σ \boldsymbol{\Sigma} Σ 爲:
Σ = ( Σ a a Σ a b Σ b a Σ b b ) (2.48)
\boldsymbol{\Sigma} = \begin{pmatrix} \boldsymbol{\Sigma}_{aa} & \boldsymbol{\Sigma}_{ab} \\ \boldsymbol{\Sigma}_{ba} & \boldsymbol{\Sigma}_{bb} \end{pmatrix}\tag{2.48}
Σ = ( Σ a a Σ b a Σ a b Σ b b ) ( 2 . 4 8 )
注意,協⽅差矩陣的對稱性 Σ T = Σ \boldsymbol{\Sigma} ^T= \boldsymbol{\Sigma} Σ T = Σ 表明 Σ a a \boldsymbol{\Sigma}_{aa} Σ a a 和 Σ b b \boldsymbol{\Sigma}_{bb} Σ b b 也是對稱的,⽽ Σ b a = Σ a b T \boldsymbol{\Sigma}_{ba} = \boldsymbol{\Sigma}_{ab}^{T} Σ b a = Σ a b T 。
在許多情況下,使⽤協⽅差矩陣的逆矩陣 ⽐較⽅便,也叫精度矩陣(precision matrix
) ,即:
Λ ≡ Σ − 1 (2.49)
\boldsymbol{\Lambda} \equiv \boldsymbol{\Sigma}^{-1}\tag{2.49}
Λ ≡ Σ − 1 ( 2 . 4 9 )
精度矩陣 的劃分形式
Λ = ( Λ a a Λ a b Λ b a Λ b b )
\boldsymbol{\Lambda} = \begin{pmatrix} \boldsymbol{\Lambda}_{aa} & \boldsymbol{\Lambda}_{ab} \\ \boldsymbol{\Lambda}_{ba} & \boldsymbol{\Lambda}_{bb} \end{pmatrix}
Λ = ( Λ a a Λ b a Λ a b Λ b b )
關於分塊矩陣的逆矩陣的恆等式:
( A B C D ) − 1 = ( M − M B D − 1 − D − 1 C M D − 1 + C M B D − 1 ) (2.50)
\begin{pmatrix} \boldsymbol{A} & \boldsymbol{B} \\ \boldsymbol{C} & \boldsymbol{D} \end{pmatrix}^{-1} = \begin{pmatrix} \boldsymbol{M} & \boldsymbol{-MBD^{-1}} \\ \boldsymbol{-D^{-1}CM} & \boldsymbol{D^{-1}+CMBD^{-1}} \end{pmatrix}\tag{2.50}
( A C B D ) − 1 = ( M − D − 1 C M − M B D − 1 D − 1 + C M B D − 1 ) ( 2 . 5 0 )
其中, M = ( A − B D − 1 C ) − 1 \boldsymbol{M = (A-BD^{-1}C)^{-1}} M = ( A − B D − 1 C ) − 1 ,M − 1 \boldsymbol{M}^{-1} M − 1 被稱爲公式(2.50)左側矩陣關於⼦矩陣 D \boldsymbol{D} D 的舒爾補 (Schur complement
)。
由以上公式和相關結論可以推導出條件概率分佈 p ( x a ∣ x b ) p(\boldsymbol{x}_a | \boldsymbol{x}_b) p ( x a ∣ x b ) 的均值 和協⽅差 的表達式:
μ a ∣ b = μ a + Σ a b Σ b b − 1 ( x b − μ b ) (2.51)
\boldsymbol{\mu}_{a|b} = \boldsymbol{\mu}_a + \boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}(\boldsymbol{x}_b-\boldsymbol{\mu}_b)\tag{2.51}
μ a ∣ b = μ a + Σ a b Σ b b − 1 ( x b − μ b ) ( 2 . 5 1 )
Σ a ∣ b = Σ a a − Σ a b Σ b b − 1 Σ b a (2.52)
\boldsymbol{\Sigma}_{a|b} = \boldsymbol{\Sigma}_{aa} - \boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}\boldsymbol{\Sigma}_{ba}\tag{2.52}
Σ a ∣ b = Σ a a − Σ a b Σ b b − 1 Σ b a ( 2 . 5 2 )
三,邊緣⾼斯分佈
對於邊緣高斯分佈 :
p ( x a ) = ∫ p ( x a , x b ) d x b (2.53)
p(\boldsymbol{x}_a) = \int p(\boldsymbol{x}_a, \boldsymbol{x}_b) \mathrm{d} \boldsymbol{x}_b\tag{2.53}
p ( x a ) = ∫ p ( x a , x b ) d x b ( 2 . 5 3 )
同條件高斯分佈一樣,可以推導出邊緣概率分佈 p ( x a ) p(\boldsymbol{x}_a) p ( x a ) 的均值 和協⽅差 的表達式:
Σ a = ( Λ a a − Λ a b Λ b b − 1 Λ b a ) − 1 (2.54)
\boldsymbol{\Sigma}_{a} = (\boldsymbol{\Lambda}_{aa} - \boldsymbol{\Lambda}{ab}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba})^{-1}\tag{2.54}
Σ a = ( Λ a a − Λ a b Λ b b − 1 Λ b a ) − 1 ( 2 . 5 4 )
E [ x a ] = μ a (2.55)
\mathbb{E}[\boldsymbol{x}_a] = \boldsymbol{\mu}_a\tag{2.55}
E [ x a ] = μ a ( 2 . 5 5 )
cov [ x a ] = Σ a a (2.56)
\text{cov}[\boldsymbol{x}_a] = \boldsymbol{\Sigma}_{aa}\tag{2.56}
cov [ x a ] = Σ a a ( 2 . 5 6 )
如圖2.13,兩個變量上的⾼斯概率分佈 p ( x a , x b ) p(x_a , x_b) p ( x a , x b ) 的輪廓線。
如圖2.14,邊緣概率分佈 p ( x a ) p(x_a) p ( x a ) (藍⾊曲線)和 x b = 0.7 x_b = 0.7 x b = 0 . 7 的條件概率分佈 p ( x a ∣ x b ) p(x_a | x_b) p ( x a ∣ x b ) (紅⾊曲線)。
四,⾼斯變量的貝葉斯定理
令邊緣概率分佈和條件概率分佈的形式:
p ( x ) = N ( x ∣ μ , Λ − 1 ) (2.57)
p(\boldsymbol{x}) = \mathcal{N}(\boldsymbol{x} |\boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1})\tag{2.57}
p ( x ) = N ( x ∣ μ , Λ − 1 ) ( 2 . 5 7 )
p ( y ∣ x ) = N ( y ∣ A x + b , L − 1 ) (2.58)
p(\boldsymbol{y} | \boldsymbol{x}) = \mathcal{N}(\boldsymbol{y} |\boldsymbol{Ax+b}, \boldsymbol{L}^{-1})\tag{2.58}
p ( y ∣ x ) = N ( y ∣ A x + b , L − 1 ) ( 2 . 5 8 )
其中,μ \boldsymbol{\mu} μ , A \boldsymbol{A} A 和 b \boldsymbol{b} b 是控制均值的參數,Λ \boldsymbol{\Lambda} Λ 和 L \boldsymbol{L} L 是精度矩陣。如果 x \boldsymbol{x} x 的維度爲 M M M ,y \boldsymbol{y} y 的維度爲 D D D ,那麼矩陣 A A A 的⼤⼩爲 D × M D \times M D × M 。
⾸先,我們尋找 x \boldsymbol{x} x 和 y \boldsymbol{y} y 的聯合分佈的表達式。令
z = ( x y )
\boldsymbol{z} = \dbinom{\boldsymbol{x}}{\boldsymbol{y}}
z = ( y x )
然後考慮聯合概率分佈的對數:
ln p ( z ) = ln p ( x ) + ln p ( y ∣ x ) = − 1 2 ( x − μ ) T Λ ( x − μ ) − 1 2 ( y − A x − b ) T L ( y − A x − b ) + 常 數 (2.59)
\begin{aligned}\ln p(\boldsymbol{z}) &= \ln p(\boldsymbol{x}) + \ln p(\boldsymbol{y} | \boldsymbol{x}) \\ &= -\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \Lambda (\boldsymbol{x} - \boldsymbol{\mu}) \\ &-\frac{1}{2}(\boldsymbol{y} - \boldsymbol{Ax} - \boldsymbol{b})^{T} \boldsymbol{L} (\boldsymbol{y}-\boldsymbol{Ax}-\boldsymbol{b}) + 常數 \end{aligned} \tag{2.59}
ln p ( z ) = ln p ( x ) + ln p ( y ∣ x ) = − 2 1 ( x − μ ) T Λ ( x − μ ) − 2 1 ( y − A x − b ) T L ( y − A x − b ) + 常 數 ( 2 . 5 9 )
可以推導出,z \boldsymbol{z} z 上的⾼斯分佈的精度矩陣 (協⽅差的逆矩陣)爲:
R = ( Λ + A T L A − A T L − L A L )
\boldsymbol{R} = \begin{pmatrix} \boldsymbol{\Lambda + A^{T}LA} & \boldsymbol{-A^{T}L} \\ \boldsymbol{-LA} & \boldsymbol{L} \end{pmatrix}
R = ( Λ + A T L A − L A − A T L L )
從而,z \boldsymbol{z} z 上的⾼斯分佈的均值 和協⽅差 的表達式:
cov [ z ] = R − 1 = ( Λ − 1 Λ − 1 A T A Λ − 1 L − 1 + A Λ − 1 A T ) (2.60)
\text{cov}[\boldsymbol{z}] = \boldsymbol{R}^{-1} = \begin{pmatrix} \boldsymbol{\Lambda^{-1} } & \boldsymbol{\Lambda^{-1}A^{T}} \\ \boldsymbol{A\Lambda^{-1}} & \boldsymbol{L^{-1}+A\Lambda^{-1}A^{T}} \end{pmatrix}\tag{2.60}
cov [ z ] = R − 1 = ( Λ − 1 A Λ − 1 Λ − 1 A T L − 1 + A Λ − 1 A T ) ( 2 . 6 0 )
E [ z ] = R − 1 ( Λ μ − A T L b L b ) (2.61)
\mathbb{E}[\boldsymbol{z}] = \boldsymbol{R}^{-1} \dbinom{\boldsymbol{\Lambda \mu - A^{T}Lb}}{\boldsymbol{Lb}}\tag{2.61}
E [ z ] = R − 1 ( L b Λ μ − A T L b ) ( 2 . 6 1 )
E [ z ] = ( μ A μ + b ) (2.62)
\mathbb{E}[\boldsymbol{z}] = \dbinom{\boldsymbol{\mu}}{\boldsymbol{A\mu+b}}\tag{2.62}
E [ z ] = ( A μ + b μ ) ( 2 . 6 2 )
邊緣分佈 p ( y ) p(\boldsymbol{y}) p ( y ) 的均值 和協⽅差 爲:
E [ y ] = A μ + b (2.63)
\mathbb{E}[\boldsymbol{y}] = \boldsymbol{A\mu+b}\tag{2.63}
E [ y ] = A μ + b ( 2 . 6 3 )
cov [ y ] = L − 1 + A Λ − 1 A T (2.64)
\text{cov}[\boldsymbol{y}] = \boldsymbol{L^{-1}+A\Lambda^{-1}A^{T}}\tag{2.64}
cov [ y ] = L − 1 + A Λ − 1 A T ( 2 . 6 4 )
條件分佈 p ( x ∣ y ) p(\boldsymbol{x}|\boldsymbol{y}) p ( x ∣ y ) 的均值 和協⽅差 爲:
E [ x ∣ y ] = ( Λ + A T L A ) − 1 { A T L ( y − b ) + Λ μ } (2.65)
\mathbb{E}[\boldsymbol{x} | \boldsymbol{y}] = (\boldsymbol{\Lambda + A^{T}LA})^{-1}\{ \boldsymbol{A^{T}L(y-b) + \Lambda \mu} \}\tag{2.65}
E [ x ∣ y ] = ( Λ + A T L A ) − 1 { A T L ( y − b ) + Λ μ } ( 2 . 6 5 )
cov [ x ∣ y ] = ( Λ + A T L A ) − 1 (2.66)
\text{cov}[\boldsymbol{x|y}] = (\boldsymbol{\Lambda + A^{T}LA})^{-1}\tag{2.66}
cov [ x ∣ y ] = ( Λ + A T L A ) − 1 ( 2 . 6 6 )
五,⾼斯分佈的最⼤似然估計
給定⼀個數據集 X = ( x 1 , … , x N ) T \boldsymbol{X} = (\boldsymbol{x}_1, \dots, \boldsymbol{x}_N)^T X = ( x 1 , … , x N ) T , 其中觀測 { x n } \{\boldsymbol{x}_n\} { x n } 假定是獨⽴地從多元⾼斯分佈中抽取的。我們可以使⽤最⼤似然法估計分佈的參數。對數似然函數爲:
ln p ( X ∣ μ , Σ ) = − N D 2 ln ( 2 π ) − N 2 ln ∣ Σ ∣ − 1 2 ∑ n = 1 N ( x n − μ ) T Σ − 1 ( x n − μ ) (2.67)
\ln p(\boldsymbol{X|\mu, \Sigma}) = -\frac{ND}{2} \ln (2\pi) - \frac{N}{2}\ln \boldsymbol{|\Sigma|} - \frac{1}{2}\sum_{n=1}^{N}\boldsymbol{(x_n -\mu)^{T}\Sigma^{-1}(x_n-\mu)}\tag{2.67}
ln p ( X ∣ μ , Σ ) = − 2 N D ln ( 2 π ) − 2 N ln ∣ Σ ∣ − 2 1 n = 1 ∑ N ( x n − μ ) T Σ − 1 ( x n − μ ) ( 2 . 6 7 )
令對數似然函數關於 μ \mu μ 的導數爲零,可以求得均值的最大似然估計:
μ M L = 1 N ∑ n = 1 N x n (2.68)
\boldsymbol{\mu}_{ML} = \frac{1}{N}\sum_{n=1}^{N}\boldsymbol{x}_n\tag{2.68}
μ M L = N 1 n = 1 ∑ N x n ( 2 . 6 8 )
方差的最大似然估計:
Σ M L = 1 N ∑ n = 1 N ( x n − μ M L ) ( x n − μ M L ) T (2.69)
\boldsymbol{\Sigma}_{ML} = \frac{1}{N}\sum_{n=1}^{N}(\boldsymbol{x}_n-\boldsymbol{\mu}_{ML})(\boldsymbol{x}_n-\boldsymbol{\mu}_{ML})^{T}\tag{2.69}
Σ M L = N 1 n = 1 ∑ N ( x n − μ M L ) ( x n − μ M L ) T ( 2 . 6 9 )
從而,
E [ μ M L ] = μ (2.70)
\mathbb{E}[\boldsymbol{\mu}_{ML}] = \boldsymbol{\mu}\tag{2.70}
E [ μ M L ] = μ ( 2 . 7 0 )
E [ Σ M L ] = N − 1 N Σ (2.71)
\mathbb{E}[\boldsymbol{\Sigma}_{ML}] = \frac{N-1}{N}\boldsymbol{\Sigma}\tag{2.71}
E [ Σ M L ] = N N − 1 Σ ( 2 . 7 1 )
Σ ~ M L = 1 N ∑ n = 1 N − 1 ( x n − μ M L ) ( x n − μ M L ) T (2.72)
\tilde {\boldsymbol{\Sigma}}_{ML} = \frac{1}{N}\sum_{n=1}^{N-1}(\boldsymbol{x}_n-\boldsymbol{\mu}_{ML})(\boldsymbol{x}_n-\boldsymbol{\mu}_{ML})^{T}\tag{2.72}
Σ ~ M L = N 1 n = 1 ∑ N − 1 ( x n − μ M L ) ( x n − μ M L ) T ( 2 . 7 2 )
六,順序估計
考慮公式(2.68)給出的均值的最⼤似然估計結果 μ M L \boldsymbol{\mu}_{ML} μ M L 。 當它依賴於第 N N N 次觀察時, 將記作 μ M L ( N ) \boldsymbol{\mu}_{ML}^{(N)} μ M L ( N ) 。如果想分析最後⼀個數據點 x N \boldsymbol{x}_N x N 的貢獻,即有:
μ M L ( N ) = 1 N ∑ n = 1 N x n = 1 N x N + 1 N ∑ n = 1 N − 1 x n = 1 N x N + N − 1 N μ M L ( N − 1 ) = μ M L ( N − 1 ) + 1 N ( x n − μ M L ( N − 1 ) ) (2.73)
\begin{aligned} \boldsymbol{\mu}_{ML}^{(N)} &= \frac{1}{N}\sum_{n=1}^{N}\boldsymbol{x}_n \\ &= \frac{1}{N}\boldsymbol{x}_{N} + \frac{1}{N}\sum_{n=1}^{N-1}\boldsymbol{x}_n \\ &= \frac{1}{N}\boldsymbol{x}_{N} + \frac{N-1}{N} \boldsymbol{\mu}_{ML}^{(N-1)} \\ &= \boldsymbol{\mu}_{ML}^{(N-1)} + \frac{1}{N}(\boldsymbol{x}_{n} -\boldsymbol{\mu}_{ML}^{(N-1)}) \end{aligned}\tag{2.73}
μ M L ( N ) = N 1 n = 1 ∑ N x n = N 1 x N + N 1 n = 1 ∑ N − 1 x n = N 1 x N + N N − 1 μ M L ( N − 1 ) = μ M L ( N − 1 ) + N 1 ( x n − μ M L ( N − 1 ) ) ( 2 . 7 3 )
考慮⼀對隨機變量 θ \theta θ 和 z z z , 它們由⼀個聯合概率分佈 p ( z , θ ) p(z, \theta) p ( z , θ ) 所控制。已知 θ \theta θ 的條件下, z z z 的條件期望定義了⼀個確定的函數 f ( θ ) f(\theta) f ( θ ) ,叫迴歸函數 ,形式如下:
f ( θ ) ≡ E [ z ∣ θ ] = ∫ z p ( z ∣ θ ) d z (2.74)
f(\theta) \equiv \mathbb{E}[z|\theta] = \int zp(z|\theta)\mathrm{d}z\tag{2.74}
f ( θ ) ≡ E [ z ∣ θ ] = ∫ z p ( z ∣ θ ) d z ( 2 . 7 4 )
如圖2.15,迴歸函數 f ( θ ) f(\theta) f ( θ ) 。
⽬標是尋找根 θ ∗ \theta^{∗} θ ∗ 使得 f ( θ ∗ ) = 0 f(\theta^{∗}) = 0 f ( θ ∗ ) = 0 。 如果有觀測 z z z 和 θ \theta θ 的⼀個⼤數據集, 那麼可以直接對迴歸函數建模, 得到根的⼀個估計。 但是假設每次觀測到⼀個 z z z 的值, 我們想找到⼀個對應的順序估計⽅法 來找到 θ ∗ \theta^{∗} θ ∗ 。 下⾯的解決這種問題的通⽤步驟由 Robbins and Monro
(1951)給出。假定 z z z 的條件⽅差是有窮的,即:
E [ ( z − f ) 2 ∣ θ ] < ∞
\mathbb{E}[(z-f)^2|\theta] \lt \infty
E [ ( z − f ) 2 ∣ θ ] < ∞
並且不失⼀般性, 我們也假設當 θ > θ ∗ \theta \gt \theta^{∗} θ > θ ∗ 時 f ( θ ) > 0 f(\theta) \gt 0 f ( θ ) > 0 , 當 θ < θ ∗ \theta \lt \theta^{∗} θ < θ ∗ 時 f ( θ ) < 0 f(\theta) \lt 0 f ( θ ) < 0 ,Robbins-Monro
的⽅法定義了⼀個根 θ ∗ \theta^{∗} θ ∗ 的順序估計的序列,由公式(2.75)給出。
θ ( N ) = θ ( N − 1 ) + α N − 1 z ( θ ( N − 1 ) ) (2.75)
\theta^{(N)} = \theta^{(N-1)} + \alpha_{N-1}z(\theta^{(N-1)})\tag{2.75}
θ ( N ) = θ ( N − 1 ) + α N − 1 z ( θ ( N − 1 ) ) ( 2 . 7 5 )
其中 z ( θ ( N ) ) z(\theta^{(N)}) z ( θ ( N ) ) 是當 θ \theta θ 的取值爲 θ ( N ) \theta (N) θ ( N ) 時 z z z 的觀測值。係數 { α N } \{\alpha_N\} { α N } 表⽰⼀個滿⾜下列條件的正數序列:
lim N → ∞ α N = 0
\lim_{N \to \infty}\alpha_{N}=0
N → ∞ lim α N = 0
∑ N = 1 ∞ α N = ∞
\sum_{N=1}^{\infty} \alpha_{N} = \infty
N = 1 ∑ ∞ α N = ∞
∑ N = 1 ∞ α N 2 < ∞
\sum_{N=1}^{\infty} \alpha_{N}^{2} \lt \infty
N = 1 ∑ ∞ α N 2 < ∞
根據定義,最⼤似然解 θ M L \theta_{ML} θ M L 是負對數似然函數的⼀個駐點,因此滿⾜:
∂ ∂ θ { 1 N ∑ n = 1 N − ln p ( x N ∣ θ ) } ∣ θ M L = 0 (2.76)
\left . \frac{\partial}{\partial \theta} \left\{\frac{1}{N}\sum_{n=1}^{N}- \ln p(x_N|\theta) \right\} \right|_{\theta_{ML}} = 0\tag{2.76}
∂ θ ∂ { N 1 n = 1 ∑ N − ln p ( x N ∣ θ ) } ∣ ∣ ∣ ∣ ∣ θ M L = 0 ( 2 . 7 6 )
交換導數與求和,取極限 N → ∞ N \to \infty N → ∞ ,可以尋找最⼤似然解對應於尋找回歸函數的根。 於是可以應⽤ Robbins-Monro
⽅法 ,此時它的形式爲:
θ ( N ) = θ ( N − 1 ) + α N − 1 ∂ ∂ θ ( N − 1 ) [ − ln p ( x N ∣ θ ( N − 1 ) ) ] (2.77)
\theta^{(N)} = \theta^{(N-1)} + \alpha_{N-1} \frac{\partial}{\partial\theta^{(N-1)}} \left [-\ln p(x_N |\theta^{(N-1)}) \right ]\tag{2.77}
θ ( N ) = θ ( N − 1 ) + α N − 1 ∂ θ ( N − 1 ) ∂ [ − ln p ( x N ∣ θ ( N − 1 ) ) ] ( 2 . 7 7 )
七,⾼斯分佈的貝葉斯推斷
考慮⼀個⼀元⾼斯隨機變量 x \mathbf{x} x ,我們假設⽅差 σ 2 \sigma^2 σ 2 是已知的,其任務是從⼀組 N N N 次觀測 x = ( x 1 , … , x N ) T \mathbf{x}=(x_1,\dots, x_N)^T x = ( x 1 , … , x N ) T 中推斷均值 μ \mu μ 。 似然函數,即給定 μ \mu μ 的情況下,觀測數據集出現的概率。它可以看成 μ \mu μ 的函數,由公式(2.78)給出。
p ( x ∣ μ ) = ∏ n = 1 N p ( x n ∣ μ ) = 1 ( 2 π σ 2 ) N 2 exp { − 1 2 σ 2 ∑ n = 1 N ( x n − μ ) 2 } (2.78)
p(\mathbf{x}|\mu) = \prod_{n=1}^{N}p(x_n|\mu) = \frac{1}{\left(2 \pi \sigma^{2}\right)^{\frac{N}{2}}} \exp \left\{-\frac{1}{2 \sigma^{2}}\sum_{n=1}^{N}(x_n-\mu)^{2}\right\}\tag{2.78}
p ( x ∣ μ ) = n = 1 ∏ N p ( x n ∣ μ ) = ( 2 π σ 2 ) 2 N 1 exp { − 2 σ 2 1 n = 1 ∑ N ( x n − μ ) 2 } ( 2 . 7 8 )
注意:似然函數 p ( x ∣ μ ) p(\mathbf{x}|\mu) p ( x ∣ μ ) 不是 μ \mu μ 的概率密度,沒有被歸⼀化。
如圖2.16,在⾼斯分佈的情形中,迴歸函數的形式。
令先驗概率分佈爲:
p ( μ ) = N ( μ ∣ μ 0 , σ 0 2 ) (2.79)
p(\mu) = \mathcal{N}\left(\mu | \mu_0, \sigma_{0}^{2}\right)\tag{2.79}
p ( μ ) = N ( μ ∣ μ 0 , σ 0 2 ) ( 2 . 7 9 )
從⽽後驗概率爲:
p ( μ ∣ x ) = N ( μ ∣ μ N , σ N 2 ) (2.80)
p(\mu | \mathbf{x}) = \mathcal{N}\left(\mu | \mu_N, \sigma_{N}^{2}\right)\tag{2.80}
p ( μ ∣ x ) = N ( μ ∣ μ N , σ N 2 ) ( 2 . 8 0 )
其中,
μ N = σ 2 N σ 0 2 + σ 2 μ 0 + N σ 0 2 N σ 0 2 + σ 2 μ M L
\mu_N = \frac{\sigma^2}{N\sigma_{0}^2 + \sigma^2}\mu_0 + \frac{N\sigma_{0}^2}{N\sigma_{0}^2 + \sigma^2}\mu_{ML}
μ N = N σ 0 2 + σ 2 σ 2 μ 0 + N σ 0 2 + σ 2 N σ 0 2 μ M L
1 σ N 2 = 1 σ 0 2 + N σ 2
\frac{1}{\sigma_{N}^{2}} = \frac{1}{\sigma_{0}^{2}} + \frac{N}{\sigma^{2}}
σ N 2 1 = σ 0 2 1 + σ 2 N
μ M L = 1 N ∑ n = 1 N x n
\mu_{ML} = \frac{1}{N}\sum_{n=1}^{N}x_n
μ M L = N 1 n = 1 ∑ N x n
圖2.17,⾼斯分佈均值的貝葉斯推斷。
現在假設均值是已知的,我們要推斷⽅差。令 λ ≡ 1 σ 2 \lambda \equiv \frac{1}{\sigma^{2}} λ ≡ σ 2 1 ,λ \lambda λ 的似然函數的形式爲:
p ( x ∣ λ ) = ∏ n = 1 N N ( x n ∣ μ , λ − 1 ) ∝ λ N 2 exp { − λ 2 ∑ n = 1 N ( x n − μ ) 2 } (2.81)
p(\mathbf{x}|\lambda) = \prod_{n=1}^{N}\mathcal{N}(x_n|\mu, \lambda^{-1}) \propto \lambda^{\frac{N}{2}} \exp \left\{-\frac{\lambda}{2}\sum_{n=1}^{N}(x_n-\mu)^{2}\right\}\tag{2.81}
p ( x ∣ λ ) = n = 1 ∏ N N ( x n ∣ μ , λ − 1 ) ∝ λ 2 N exp { − 2 λ n = 1 ∑ N ( x n − μ ) 2 } ( 2 . 8 1 )
對應的共軛先驗 因此應該正⽐於 λ \lambda λ 的冪指數,也正⽐於 λ \lambda λ 的線性函數的指數。這對應於 Gamma
分佈 ,定義爲:
Gam ( λ ∣ a , b ) = 1 Γ ( a ) b a λ a − 1 exp ( − b λ ) (2.82)
\text{Gam}(\lambda|a,b) = \frac{1}{\Gamma(a)}b^{a}\lambda^{a-1}\exp (-b\lambda)\tag{2.82}
Gam ( λ ∣ a , b ) = Γ ( a ) 1 b a λ a − 1 exp ( − b λ ) ( 2 . 8 2 )
均值 和協⽅差 分別爲:
E [ λ ] = a b (2.83)
\mathbb{E}[\lambda] = \frac{a}{b}\tag{2.83}
E [ λ ] = b a ( 2 . 8 3 )
var [ λ ] = a b 2 (2.84)
\text{var}[\lambda] = \frac{a}{b^2}\tag{2.84}
var [ λ ] = b 2 a ( 2 . 8 4 )
如圖2.18~2.20,不同的 a a a 和 b b b 的情況下 Gamma
分佈的圖像。
考慮⼀個先驗分佈 Gam ( λ ∣ a 0 , b 0 ) \text{Gam}(\lambda|a_0,b_0) Gam ( λ ∣ a 0 , b 0 ) 。如果乘以公式(2.81)給出的似然函數,那麼即可得到後驗分佈:
p ( λ ∣ x ) ∝ λ a 0 − 1 λ N 2 exp { − b 0 λ − λ 2 ∑ n = 1 N ( x n − μ ) 2 } (2.85)
p(\lambda | \mathbf{x}) \propto \lambda^{a_0-1} \lambda^{\frac{N}{2}} \exp \left\{-b_0 \lambda -\frac{\lambda}{2}\sum_{n=1}^{N}(x_n-\mu)^{2}\right\}\tag{2.85}
p ( λ ∣ x ) ∝ λ a 0 − 1 λ 2 N exp { − b 0 λ − 2 λ n = 1 ∑ N ( x n − μ ) 2 } ( 2 . 8 5 )
我們可以把它看成形式爲 Gam ( λ ∣ a N , b N ) \text{Gam}(\lambda|a_N,b_N) Gam ( λ ∣ a N , b N ) 的 Gamma
分佈 ,其中
a N = a 0 + N 2
a_N = a_0 + \frac{N}{2}
a N = a 0 + 2 N
b N = b 0 1 2 ∑ n = 1 N ( x n − μ ) 2 = b 0 + N 2 σ M L 2
b_N = b_0 \frac{1}{2}\sum_{n=1}^{N}(x_n-\mu)^2 = b_0 + \frac{N}{2}\sigma_{ML}^{2}
b N = b 0 2 1 n = 1 ∑ N ( x n − μ ) 2 = b 0 + 2 N σ M L 2
現在假設均值 和精度 都是未知的。爲了找到共軛先驗 ,考慮似然函數對於 μ \mu μ 和 λ \lambda λ 的依賴關係:
p ( x ∣ μ , λ ) = ∏ n = 1 N ( λ 2 π ) 1 2 exp { − λ 2 ( x n − μ ) 2 } ∝ [ λ 1 2 exp ( − λ μ 2 2 ) ] N exp { λ μ ∑ n = 1 N x n − λ 2 ∑ n = 1 N x n 2 } (2.86)
\begin{aligned} p(\mathbf{x}|\mu,\lambda) &= \prod_{n=1}^{N} \left(\frac{\lambda}{2\pi} \right)^{\frac{1}{2}} \exp \left\{-\frac{\lambda}{2}(x_n-\mu)^{2}\right\} \\ &\propto \left[\lambda^{\frac{1}{2}} \exp\left(-\frac{\lambda \mu^{2}}{2}\right) \right]^{N} \exp \left\{\lambda \mu \sum_{n=1}^{N}x_n - \frac{\lambda}{2}\sum_{n=1}^{N}x_{n}^{2}\right\} \end{aligned}\tag{2.86}
p ( x ∣ μ , λ ) = n = 1 ∏ N ( 2 π λ ) 2 1 exp { − 2 λ ( x n − μ ) 2 } ∝ [ λ 2 1 exp ( − 2 λ μ 2 ) ] N exp { λ μ n = 1 ∑ N x n − 2 λ n = 1 ∑ N x n 2 } ( 2 . 8 6 )
假設先驗分佈的形式爲:
p ( μ , λ ) = exp { − β λ 2 ( μ − c β ) 2 } λ β 2 exp { − ( d − c 2 2 β ) λ } ∝ [ λ 1 2 exp ( − λ μ 2 2 ) ] β exp { c λ μ − d λ } (2.87)
\begin{aligned} p(\mu,\lambda) &= \exp \left\{-\frac{\beta \lambda}{2}\left(\mu-\frac{c}{\beta}\right)^2 \right\} \lambda^{\frac{\beta}{2}} \exp \left\{-\left(d-\frac{c^2}{2\beta}\right)\lambda \right\} \\ &\propto \left[\lambda^{\frac{1}{2}} \exp\left(-\frac{\lambda \mu^{2}}{2}\right) \right]^{\beta} \exp \left\{c\lambda \mu - d\lambda\right\} \end{aligned}\tag{2.87}
p ( μ , λ ) = exp { − 2 β λ ( μ − β c ) 2 } λ 2 β exp { − ( d − 2 β c 2 ) λ } ∝ [ λ 2 1 exp ( − 2 λ μ 2 ) ] β exp { c λ μ − d λ } ( 2 . 8 7 )
其 中 c , d c, d c , d 和 β \beta β 都是常數。
歸⼀化的先驗概率的形式爲:
p ( μ , λ ) = N ( μ ∣ μ 0 , ( β λ ) − 1 ) Gam ( λ ∣ a , b ) (2.88)
p(\mu,\lambda) = \mathcal{N}(\mu|\mu_0, (\beta \lambda)^{-1})\text{Gam}(\lambda|a,b)\tag{2.88}
p ( μ , λ ) = N ( μ ∣ μ 0 , ( β λ ) − 1 ) Gam ( λ ∣ a , b ) ( 2 . 8 8 )
這被稱爲正態-Gamma
分佈 或者⾼斯-Gamma
分佈 。如圖2.21:
對於 D D D 維向量 x \boldsymbol{x} x 的多元⾼斯分佈 N ( x ∣ μ , Λ − 1 ) \mathcal{N}(\boldsymbol{x|\mu, \Lambda}^{−1}) N ( x ∣ μ , Λ − 1 ) ,假設精度已知,則均值 μ \boldsymbol{\mu} μ 的共軛先驗分佈仍然是⾼斯分佈。對於已知均值未知精度矩陣 Λ \boldsymbol{\Lambda} Λ 的情形,共軛先驗是**Wishart
分佈**,定義爲:
W ( Λ ∣ W , ν ) = B ∣ Λ ∣ ν − D − 1 2 exp ( − 1 2 Tr ( W − 1 Λ ) ) (2.89)
\mathcal{W}(\mathbf{\Lambda} | \boldsymbol{W}, \nu)=B|\boldsymbol{\Lambda}|^{\frac{\nu-D-1}{2}} \exp \left(-\frac{1}{2} \operatorname{Tr}\left(\boldsymbol{W}^{-1} \boldsymbol{\Lambda}\right)\right)\tag{2.89}
W ( Λ ∣ W , ν ) = B ∣ Λ ∣ 2 ν − D − 1 exp ( − 2 1 T r ( W − 1 Λ ) ) ( 2 . 8 9 )
其中 ν \nu ν 被稱爲分佈的⾃由度數量 (degrees of freedom
),W \boldsymbol{W} W 是⼀個 D × D D \times D D × D 的標量矩陣,Tr ( ⋅ ) \operatorname{Tr}(·) T r ( ⋅ ) 表⽰矩陣的跡 。歸⼀化係數 B B B 爲:
B ( W , ν ) = ∣ W ∣ − ν 2 ( 2 ν D 2 π D ( D − 1 ) 4 ∏ i = 1 D Γ ( ν + 1 − i 2 ) ) − 1 (2.90)
B(\boldsymbol{W}, \nu)=|\boldsymbol{W}|^{-\frac{\nu}{2}}\left(2^{\frac{\nu D}{2}} \pi^{\frac{D(D-1)}{4}} \prod_{i=1}^{D} \Gamma\left(\frac{\nu+1-i}{2}\right)\right)^{-1}\tag{2.90}
B ( W , ν ) = ∣ W ∣ − 2 ν ( 2 2 ν D π 4 D ( D − 1 ) i = 1 ∏ D Γ ( 2 ν + 1 − i ) ) − 1 ( 2 . 9 0 )
如果均值和精度都是未知的,那麼類似於⼀元變量的推理⽅法,共軛先驗 爲:
p ( μ , Λ ∣ μ 0 , β , W , ν ) = N ( μ ∣ μ 0 , ( β Λ ) − 1 ) W ( Λ ∣ W , ν ) (2.91)
p(\boldsymbol{\mu,\Lambda|\mu}_0,\beta,\boldsymbol{W}, \nu) = \mathcal{N}(\boldsymbol{\mu|\mu}_0, (\beta \boldsymbol{\Lambda})^{-1})\mathcal{W}(\mathbf{\Lambda} | \boldsymbol{W}, \nu)\tag{2.91}
p ( μ , Λ ∣ μ 0 , β , W , ν ) = N ( μ ∣ μ 0 , ( β Λ ) − 1 ) W ( Λ ∣ W , ν ) ( 2 . 9 1 )
這被稱爲正態-Wishart
分佈 或者⾼斯-Wishart
分佈 。
八,學生 t \mathbf{t} t 分佈
如果有⼀個⼀元⾼斯分佈 N ( x ∣ μ , τ − 1 ) \mathcal{N}\left(x | \mu, \tau^{-1}\right) N ( x ∣ μ , τ − 1 ) 和⼀個 Gamma
先驗分佈 Gam ( τ ∣ a , b ) \text{Gam}(\tau|a, b) Gam ( τ ∣ a , b ) ,把精度積分出來,便可以得到 x x x 的邊緣分佈,形式爲:
p ( x ∣ μ , a , b ) = ∫ 0 ∞ N ( x ∣ μ , τ − 1 ) Gam ( τ ∣ a , b ) d τ = ∫ 0 ∞ b a e ( − b r ) τ a − 1 Γ ( a ) ( τ 2 π ) 1 2 exp { − τ 2 ( x − μ ) 2 } d τ = b a Γ ( a ) ( 1 2 π ) 1 2 [ b + ( x − μ ) 2 2 ] − a − 1 2 Γ ( a + 1 2 ) (2.92)
\begin{aligned} p(x | \mu, a, b) &=\int_{0}^{\infty} \mathcal{N}\left(x | \mu, \tau^{-1}\right) \operatorname{Gam}(\tau | a, b) \mathrm{d} \tau \\ &=\int_{0}^{\infty} \frac{b^{a} e^{(-b r)} \tau^{a-1}}{\Gamma(a)}\left(\frac{\tau}{2 \pi}\right)^{\frac{1}{2}} \exp \left\{-\frac{\tau}{2}(x-\mu)^{2}\right\} \mathrm{d} \tau \\ &=\frac{b^{a}}{\Gamma(a)}\left(\frac{1}{2 \pi}\right)^{\frac{1}{2}}\left[b+\frac{(x-\mu)^{2}}{2}\right]^{-a-\frac{1}{2}} \Gamma\left(a+\frac{1}{2}\right) \end{aligned}\tag{2.92}
p ( x ∣ μ , a , b ) = ∫ 0 ∞ N ( x ∣ μ , τ − 1 ) G a m ( τ ∣ a , b ) d τ = ∫ 0 ∞ Γ ( a ) b a e ( − b r ) τ a − 1 ( 2 π τ ) 2 1 exp { − 2 τ ( x − μ ) 2 } d τ = Γ ( a ) b a ( 2 π 1 ) 2 1 [ b + 2 ( x − μ ) 2 ] − a − 2 1 Γ ( a + 2 1 ) ( 2 . 9 2 )
形如 p ( x ∣ μ a , b ) p(x|\mu a,b) p ( x ∣ μ a , b ) 如下:
St ( x ∣ μ , λ , ν ) = Γ ( ν 2 + 1 2 ) Γ ( ν 2 ) ( λ π ν ) 1 2 [ 1 + λ ( x − μ ) 2 ν ] − ν 2 − 1 2 (2.93)
\text{St}(x|\mu,\lambda,\nu) = \frac{\Gamma(\frac{\nu}{2}+\frac{1}{2})}{\Gamma(\frac{\nu}{2})}\left(\frac{\lambda}{\pi \nu}\right)^{\frac{1}{2}}\left[1+\frac{\lambda(x-\mu)^2}{\nu}\right]^{-\frac{\nu}{2}-\frac{1}{2}}\tag{2.93}
St ( x ∣ μ , λ , ν ) = Γ ( 2 ν ) Γ ( 2 ν + 2 1 ) ( π ν λ ) 2 1 [ 1 + ν λ ( x − μ ) 2 ] − 2 ν − 2 1 ( 2 . 9 3 )
稱爲學生 t 分佈 (Student's t-distribution
)。 參數 λ \lambda λ 有時被稱爲 t \mathbf{t} t 分佈的精度 (precision
), 即使它通常不等於⽅差的倒數。參數 ν \nu ν 被稱爲⾃由度 (degrees of freedom
)。如圖2.22:
學生 t \mathbf{t} t 分佈的⼀個重要性質 :魯棒性 (robustness),即對於數據集⾥的⼏個離羣點outlier
的出現,分佈不會像⾼斯分佈那樣敏感。
圖 2.23,從⼀個⾼斯分佈 中抽取的30個數據點的直⽅圖,以及得到的最⼤似然擬合。紅⾊曲線表⽰使⽤ t \mathbf{t} t 分佈進⾏的擬合,綠⾊曲線(⼤部分隱藏在了紅⾊曲 線後⾯)表⽰使⽤⾼斯分佈進⾏的擬合。由於 t \mathbf{t} t 分佈將⾼斯分佈作爲⼀種特例,因此它給出了與⾼斯分佈⼏乎相同的解。
圖 2.24,與圖2.23同樣的數據集,但是多了三個異常數據點。這幅圖展⽰了⾼斯分佈(綠⾊曲線)是如 何被異常點強烈地⼲擾的,⽽ t \mathbf{t} t 分佈(紅⾊曲線)相對不受影響。
推⼴到多元⾼斯分佈 N ( x ∣ μ , Λ ) \mathcal{N}(\boldsymbol{x|\mu, \Lambda}) N ( x ∣ μ , Λ ) 來得到對應的多元學生 t \mathbf{t} t 分佈,形式爲:
St ( x ∣ μ , Λ , ν ) = ∫ 0 ∞ N ( x ∣ μ , ( η Λ ) − 1 ) Gam ( η ∣ ν 2 , ν 2 ) d ν (2.94)
\operatorname{St}(\boldsymbol{x} | \boldsymbol{\mu}, \boldsymbol{\Lambda}, \nu)=\int_{0}^{\infty} \mathcal{N}\left(\boldsymbol{x} | \boldsymbol{\mu},(\eta \boldsymbol{\Lambda})^{-1}\right) \operatorname{Gam}\left(\eta | \frac{\nu}{2}, \frac{\nu}{2}\right) \mathrm{d} \nu \tag{2.94}
S t ( x ∣ μ , Λ , ν ) = ∫ 0 ∞ N ( x ∣ μ , ( η Λ ) − 1 ) G a m ( η ∣ 2 ν , 2 ν ) d ν ( 2 . 9 4 )
求積分,可得:
St ( x ∣ μ , Λ , , ν ) = Γ ( ν 2 + D 2 ) Γ ( ν 2 ) ( ∣ Λ ∣ ( π ν ) D ) 1 2 [ 1 + Δ 2 ν ] − ν 2 − D 2 (2.95)
\text{St}(\boldsymbol{x} | \boldsymbol{\mu}, \boldsymbol{\Lambda},,\nu) = \frac{\Gamma(\frac{\nu}{2}+\frac{D}{2})}{\Gamma(\frac{\nu}{2})}\left(\frac{|\boldsymbol{\Lambda}|}{(\pi \nu)^D}\right)^{\frac{1}{2}}\left[1+\frac{\Delta^{2}}{\nu}\right]^{-\frac{\nu}{2}-\frac{D}{2}}\tag{2.95}
St ( x ∣ μ , Λ , , ν ) = Γ ( 2 ν ) Γ ( 2 ν + 2 D ) ( ( π ν ) D ∣ Λ ∣ ) 2 1 [ 1 + ν Δ 2 ] − 2 ν − 2 D ( 2 . 9 5 )
其中 D D D 是 x \boldsymbol{x} x 的維度,Δ 2 \Delta^2 Δ 2 是平⽅馬⽒距離 ,定義爲:
Δ 2 = ( x − μ ) T Λ ( x − μ ) (2.96)
\Delta^2 = (\boldsymbol{x-\mu})^T \boldsymbol{\Lambda} (\boldsymbol{x-\mu})\tag{2.96}
Δ 2 = ( x − μ ) T Λ ( x − μ ) ( 2 . 9 6 )
多元變量形式的學生 t \mathbf{t} t 分佈,滿⾜下⾯的性質:
1)E [ x ] = μ \mathbb{E}[\boldsymbol{x}] = \boldsymbol{\mu} E [ x ] = μ 如果 ν > 1 \nu \gt 1 ν > 1
2)cov [ x ] = ν ν − 2 Λ − 1 \text{cov}[\boldsymbol{x}] = \frac{\nu}{\nu-2}\boldsymbol{\Lambda}^{-1} cov [ x ] = ν − 2 ν Λ − 1 如果 ν > 2 \nu \gt 2 ν > 2
3)mode [ x ] = μ \text{mode}[\boldsymbol{x}] = \boldsymbol{\mu} mode [ x ] = μ
九,週期變量
考察⼀個⼆維單位向量 x 1 , … , x N \boldsymbol{x}_1,\dots,\boldsymbol{x}_N x 1 , … , x N , 其中 ∣ ∣ x n ∣ ∣ = 1 ||\boldsymbol{x}_n|| = 1 ∣ ∣ x n ∣ ∣ = 1 且 n = 1 , … , N n = 1,\dots , N n = 1 , … , N , 如圖2.25所⽰。
可以對向量 { x n } \{\boldsymbol{x}_n\} { x n } 求平均,可得
x ˉ = 1 N ∑ n = 1 N x n
\bar{\boldsymbol{x}} = \frac{1}{N}\sum_{n=1}^{N}\boldsymbol{x}_n
x ˉ = N 1 n = 1 ∑ N x n
注意,x ˉ \bar{\boldsymbol{x}} x ˉ 通常位於單位圓的內部。
x ˉ \bar{\boldsymbol{x}} x ˉ 對應的角度 θ ˉ \bar{\theta} θ ˉ 爲:
θ ˉ = tan − 1 { ∑ n sin θ n ∑ n cos θ n } (2.97)
\bar{\theta} = \tan^{-1} \left\{\frac{\sum_{n}\sin \theta_n}{\sum_{n}\cos \theta_n} \right\}\tag{2.97}
θ ˉ = tan − 1 { ∑ n cos θ n ∑ n sin θ n } ( 2 . 9 7 )
考慮的週期概率分佈 p ( θ ) p(\theta) p ( θ ) 的週期爲 2 π 2\pi 2 π 。θ \theta θ 上的任何概率密度 p ( θ ) p(\theta) p ( θ ) ⼀定⾮負, 積分等於1,並且⼀定是週期性的。因此, p ( θ ) p(\theta) p ( θ ) ⼀定滿⾜下⾯三個條件:
1) p ( θ ) ≥ 0 p(\theta) \ge 0 p ( θ ) ≥ 0
2) ∫ 0 2 π p ( θ ) d θ = 1 \int_{0}^{2\pi} p(\theta) \mathrm{d}\theta = 1 ∫ 0 2 π p ( θ ) d θ = 1
3) p ( θ + 2 π ) = p ( θ ) p(\theta + 2\pi) = p(\theta) p ( θ + 2 π ) = p ( θ )
考慮兩個變量 x = ( x 1 , x 2 ) \boldsymbol{x} = (x_1 , x_2) x = ( x 1 , x 2 ) 的⾼斯分佈,均值爲 μ = ( μ 1 , μ 2 ) \boldsymbol{\mu} = (\mu_1, \mu_2) μ = ( μ 1 , μ 2 ) ,協⽅差矩陣爲 Σ = σ 2 I \boldsymbol{\Sigma} = \sigma^2 \boldsymbol{I} Σ = σ 2 I ,其中 I \boldsymbol{I} I 是⼀個 2 × 2 2\times2 2 × 2 的單位矩陣。因此有:
p ( x 1 , x 2 ) = 1 2 π σ 2 exp { − ( x 1 − μ 1 ) 2 + ( x 2 − μ 2 ) 2 2 σ 2 } (2.98)
p(x_1,x_2) = \frac{1}{2\pi \sigma^{2}} \exp \left\{-\frac{(x_1-\mu_1)^2+(x_2-\mu_2)^{2}}{2\sigma^{2}}\right\}\tag{2.98}
p ( x 1 , x 2 ) = 2 π σ 2 1 exp { − 2 σ 2 ( x 1 − μ 1 ) 2 + ( x 2 − μ 2 ) 2 } ( 2 . 9 8 )
von Mises
分佈 (環形正態分佈 (circular normal
)):在單位圓 r = 1 r=1 r = 1 上的概率分佈 p ( θ ) p(\theta) p ( θ ) 的最終表達式:
p ( θ ∣ θ 0 , m ) = 1 2 π I 0 ( m ) exp { m cos ( θ − θ 0 ) } (2.99)
p(\theta|\theta_0,m) = \frac{1}{2\pi I_0(m)} \exp \left\{m\cos(\theta-\theta_0)\right\}\tag{2.99}
p ( θ ∣ θ 0 , m ) = 2 π I 0 ( m ) 1 exp { m cos ( θ − θ 0 ) } ( 2 . 9 9 )
其中,參數 θ 0 \theta_0 θ 0 對應於分佈的均值,m m m 被稱爲 concentration
參數 ,類似於⾼斯分佈的⽅差的倒數(精度 )。歸⼀化係數包含項 I 0 ( m ) I_0 (m) I 0 ( m ) ,是零階修正的第⼀類Bessel
函數 (Abramowitz and Stegun
, 1965), 定義爲:
I 0 ( m ) = 1 2 π ∫ 0 2 π exp { m cos θ } d θ (2.100)
I_0(m) = \frac{1}{2\pi} \int_{0}^{2\pi}\exp\{m\cos \theta\}\mathrm{d}\theta\tag{2.100}
I 0 ( m ) = 2 π 1 ∫ 0 2 π exp { m cos θ } d θ ( 2 . 1 0 0 )
如圖2.26~2.27,von Mises
分佈的圖像。
如圖2.28, Bessel
函數 I 0 ( m ) I_0 (m) I 0 ( m ) 的圖像。
現在考慮 von Mises
分佈 的參數 θ 0 \theta_0 θ 0 和參數 m m m 的最⼤似然估計。對數似然函數爲:
ln p ( D ∣ θ 0 , m ) = − N ln ( 2 π ) − ln I 0 ( m ) + m ∑ n = 1 N cos ( θ n − θ 0 ) (2.101)
\ln p(\mathcal{D} | \theta_0,m)=-N\ln (2\pi)-\ln I_0(m)+m\sum_{n=1}^{N}\cos(\theta_n-\theta_0)\tag{2.101}
ln p ( D ∣ θ 0 , m ) = − N ln ( 2 π ) − ln I 0 ( m ) + m n = 1 ∑ N cos ( θ n − θ 0 ) ( 2 . 1 0 1 )
令其關於 θ 0 \theta_0 θ 0 的導數等於零,從⽽可以得到:
θ 0 M L = tan − 1 { ∑ n sin θ n ∑ n cos θ n } (2.102)
\theta_{0}^{ML} = \tan^{-1} \left\{\frac{\sum_{n}\sin \theta_n}{\sum_{n}\cos \theta_n} \right\}\tag{2.102}
θ 0 M L = tan − 1 { ∑ n cos θ n ∑ n sin θ n } ( 2 . 1 0 2 )
關於 m m m 最⼤化公式(2.101),使⽤ I 0 ′ ( m ) = I 1 ( m ) I_0^{\prime}(m)=I_1(m) I 0 ′ ( m ) = I 1 ( m ) (Abramowitz and Stegun
, 1965),從⽽可以得到:
A ( m N L ) = 1 N ∑ n = 1 N cos ( θ n − θ 0 M L ) (2.103)
A(m_{NL})=\frac{1}{N}\sum_{n=1}^{N}\cos(\theta_{n}-\theta_{0}^{ML})\tag{2.103}
A ( m N L ) = N 1 n = 1 ∑ N cos ( θ n − θ 0 M L ) ( 2 . 1 0 3 )
令
A ( m ) = I 1 ( m ) I 0 ( m )
A(m)=\frac{I_1(m)}{I_0(m)}
A ( m ) = I 0 ( m ) I 1 ( m )
可以得到:
A ( m M L ) = ( 1 N ∑ n = 1 N cos θ n ) cos θ 0 M L + ( 1 N ∑ n = 1 N sin θ n ) sin θ 0 M L (2.104)
A(m_{ML})=\left(\frac{1}{N}\sum_{n=1}^{N}\cos \theta_{n}\right)\cos \theta_{0}^{ML} + \left(\frac{1}{N}\sum_{n=1}^{N}\sin \theta_{n}\right)\sin \theta_{0}^{ML}\tag{2.104}
A ( m M L ) = ( N 1 n = 1 ∑ N cos θ n ) cos θ 0 M L + ( N 1 n = 1 ∑ N sin θ n ) sin θ 0 M L ( 2 . 1 0 4 )
如圖2.29, 函數 A ( m ) A (m) A ( m ) 的圖像。
十,混合高斯模型
通過將更基本的概率分佈(例如⾼斯分佈)進⾏線性組合的這樣的疊加⽅法,可以被形式化爲概率模型,被稱爲混合模型 (mixture distributions
)(McLachlan and Basford
, 1988; McLachlan and Peel
, 2000)。
考慮 K K K 個⾼斯概率密度的疊加,形式爲:
p ( x ) = ∑ k = 1 K π k N ( x ∣ μ k , Σ k ) (2.105)
p(\boldsymbol{x}) = \sum_{k=1}^{K} \pi_{k} \mathcal{N}(\boldsymbol{x} |\boldsymbol{\mu_{k}}, \boldsymbol{\Sigma}_{k})\tag{2.105}
p ( x ) = k = 1 ∑ K π k N ( x ∣ μ k , Σ k ) ( 2 . 1 0 5 )
這被稱爲混合⾼斯 (mixture of Gaussians
)。 每⼀個⾼斯概率密度 N ( x ∣ μ k , Σ k ) \mathcal{N}(\boldsymbol{x} |\boldsymbol{\mu_{k}}, \boldsymbol{\Sigma}_{k}) N ( x ∣ μ k , Σ k ) 被稱爲混合分佈的⼀個成分 (component
),並且有⾃⼰的均值 μ k \boldsymbol{\mu_{k}} μ k 和協⽅差 Σ k \boldsymbol{\Sigma}_{k} Σ k 。參數 π k \pi_{k} π k 被稱爲混合係數 (mixing coefficients
),並且滿足以下條件:
1)∑ k = 1 K π k = 1 \sum_{k=1}^{K} \pi_{k}=1 ∑ k = 1 K π k = 1
2)0 ≤ π k ≤ 1 0\le \pi_{k} \le 1 0 ≤ π k ≤ 1
如圖2.30,每個混合分量的常數概率密度輪廓線,其中三個分量分別被標記爲紅⾊、藍⾊和綠⾊, 且混合係數的值在每個分量的下⽅給出。
如圖2.31, 混合分佈的邊緣概率密度 p ( x ) p(\boldsymbol{x}) p ( x ) 的輪廓線。
如圖2.32, 概率分佈 p ( x ) p(\boldsymbol{x}) p ( x ) 的⼀個曲⾯圖。