本系列爲《模式識別與機器學習》的讀書筆記。

一，多元高斯分佈

考慮⾼斯分佈的⼏何形式，⾼斯對於 $\boldsymbol{x}$ 的依賴是通過下⾯形式的⼆次型：
$\Delta^{2} = (\boldsymbol{x} - \boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x} - \boldsymbol{\mu})\tag{2.30}$
其中， $\Delta$ 被叫做 $\boldsymbol{\mu}$ 和 $\boldsymbol{x}$ 之間的馬⽒距離（Mahalanobis distance）。當 $\boldsymbol{\Sigma}$ 是單位矩陣時，就變成了歐式距離。對於 $\boldsymbol{x}$ 空間中這個⼆次型是常數的曲⾯，⾼斯分佈也是常數。

現在考慮協⽅差矩陣的特徵向量⽅程：
$\boldsymbol{\Sigma} \boldsymbol{\mu}_i = \lambda_{i} \boldsymbol{\mu}_{i}\tag{2.31}$
其中 $i = 1,\dots , D$ 。由於 $\boldsymbol{\Sigma}$ 是實對稱矩陣，因此它的特徵值也是實數，並且特徵向量可以被選成單位正交的，即：
$\boldsymbol{\mu}_{i}^{T} \boldsymbol{\mu}_{j} = I_{ij}\tag{2.32}$

其中 $I_{ij}$ 是單位矩陣的第 $i, j$ 個元素，滿⾜：
$I_{i j}=\left\{\begin{array}{l}{1，如果 i=j} \\ {0，其他情況}\end{array}\right. \tag{2.33}$
協⽅差矩陣 $\boldsymbol{\Sigma}$ 可以表⽰成特徵向量的展開的形式：
$\boldsymbol{\Sigma} = \sum_{i=1}^{D} \lambda_i \boldsymbol{\mu}_{i}\boldsymbol{\mu}_{i}^{T}\tag{2.34}$
協⽅差矩陣的逆矩陣 $\boldsymbol{\Sigma}^{-1}$ 可以表⽰成特徵向量的展開的形式：
$\boldsymbol{\Sigma}^{-1} = \sum_{i=1}^{D} \frac{1}{\lambda_i} \boldsymbol{\mu}_{i}\boldsymbol{\mu}_{i}^{T}\tag{2.35}$
⼆次型公式(2.30)即可表示爲：
$\Delta^{2} = \sum_{i=1}^{D} \frac{y_{i}^{2}}{\lambda_{i}}\tag{2.36}$
其中， $y_{i}^{2} = \boldsymbol{u_i^T} (\boldsymbol{x} - \boldsymbol{\mu})$ 。

把 $\{y_i\}$ 表⽰成單位正交向量 $\boldsymbol{\mu_i}$ 關於原始的 $x_i$ 座標經過平移和旋轉後形成的新的座標系。定義向量 $\boldsymbol{y} = (y_1,\dots, y_D)^T$ ，即有：
$\boldsymbol {y} = \boldsymbol{U} (\boldsymbol{x} - \boldsymbol{\mu})\tag{2.37}$
其中 $\boldsymbol{U}$ 是⼀個矩陣，它的⾏是向量 $\boldsymbol{u}_{i}^{T}$ 。從公式(2.32)可以看出 $\boldsymbol{U}$ 是⼀個正交矩陣，即它滿⾜性質 $\boldsymbol{U}\boldsymbol{U}^T = \boldsymbol{I}$ ，因此也滿⾜ $\boldsymbol{U}^T \boldsymbol{U} = \boldsymbol{I}$ ，其中 $\boldsymbol{I}$ 是單位矩陣。

⼀個特徵值嚴格⼤於零的矩陣被稱爲正定（positive definite）矩陣。偶爾遇到⼀個或者多個特徵值爲零的⾼斯分佈，那種情況下分佈是奇異的，被限制在了⼀個低維的⼦空間中。如果所有的特徵值都是⾮負的，那麼這個矩陣被稱爲半正定（positive semidefine）矩陣。

如圖2.12，紅⾊曲線表⽰⼆維空間 $\boldsymbol{x} = (x_1 , x_2)$ 的⾼斯分佈的常數概率密度的橢圓⾯，它表⽰的概率密度爲 $\exp(−\frac{1}{2})$ ，值是在 $\boldsymbol{x} = \boldsymbol{\mu}$ 處計算的。橢圓的軸由協⽅差矩陣的特徵向量 $\mu_i$ 定義，對應的特徵值爲 $\lambda_i$ 。

現在考慮在由 $y_i$ 定義的新座標系下⾼斯分佈的形式。從 $\boldsymbol{x}$ 座標系到 $\boldsymbol{y}$ 座標系，我們有⼀個 Jacobian矩陣 $\boldsymbol{J}$ ，它的元素爲：
$\boldsymbol{J}_{ij} = \frac{\partial {x_i}}{\partial {j_j}} = U_{ij}\tag{2.38}$

其中 $U_{ji}$ 是矩陣 $\boldsymbol{U}^T$ 的元素。使⽤矩陣 $\boldsymbol{U}$ 的單位正交性質，我們看到 Jacobian矩陣 ⾏列式的平⽅爲：
$| \boldsymbol{J}^{2} | = |\boldsymbol{U}^{T}|^{2} = |\boldsymbol{U}^{T}||\boldsymbol{U}| = |\boldsymbol{U}^{T}\boldsymbol{U}| = |\boldsymbol{I}| = 1\tag{2.39}$
從而可知， $|\boldsymbol{J}|=1$ ，並且，⾏列式 $|\boldsymbol{\Sigma}|$ 的協⽅差矩陣可以寫成特徵值的乘積，因此：
$|\boldsymbol{\Sigma}|^{\frac{1}{2}} = \prod_{j=1}^{D} \lambda_{j}^{\frac{1}{2}}\tag{2.40}$
因此在 $\boldsymbol{y}$ 座標系中，⾼斯分佈的形式爲：
$p(\boldsymbol{y}) = p(\boldsymbol{x})|\boldsymbol{J}| = \prod_{j=1}^{D} \frac{1}{(2 \pi \lambda_{j})^{\frac{1}{2}}} \exp \left \{- \frac{y_{i}^2}{2\lambda_j} \right \}\tag{2.41}$

這是 $D$ 個獨⽴⼀元⾼斯分佈的乘積。

在 $\boldsymbol{y}$ 座標系中，概率分佈的積分爲：
$\int p(\boldsymbol{y}) \mathrm{d} \boldsymbol{y} = \prod_{j=1}^{D} \int_{-\infty}^{\infty} \frac{1}{(2 \pi \lambda_{j})^{\frac{1}{2}}} \exp \left \{- \frac{y_{i}^2}{2\lambda_j} \right \} \mathrm{d} y_j = 1\tag{2.42}$
⾼斯分佈下 $\boldsymbol{x}$ 的期望爲：
$\begin{aligned} \mathbb{E}[\boldsymbol{x}] &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right\} \boldsymbol{x} \mathrm{d} \boldsymbol{x} \\ &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}\boldsymbol{z}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{z}\right\} (\boldsymbol{z+\mu}) \mathrm{d} \boldsymbol{z} \end{aligned}\tag{2.43}$
其中， $\boldsymbol{z = x - \mu}$ 。注意到指數位置是 $\boldsymbol{z}$ 的偶函數，並且由於積分區間爲 $(−\infty, \infty)$ ，因此在因⼦ $(\boldsymbol{z + \mu})$ 中的 $\boldsymbol{z}$ 中的項會由於對稱性變爲零。因此 $\mathbb{E}[\boldsymbol{x}] = \boldsymbol{\mu}$ 。稱 $\boldsymbol{\mu}$ 爲⾼斯分佈的均值。

現在考慮⾼斯分佈的⼆階矩。對於多元⾼斯分佈，有 $D^2$ 個由 $\mathbb{E}[x_i x_j]$ 給出的⼆階矩，可以聚集在⼀起組成矩陣 $\mathbb{E}[\boldsymbol{x}\boldsymbol{x}^T ]$ 。
$\begin{aligned} \mathbb{E}[\boldsymbol{x}\boldsymbol{x}^{T}] &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right\} \boldsymbol{x} \boldsymbol{x}^{T}\mathrm{d} \boldsymbol{x} \\ &= \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{-\frac{1}{2}\boldsymbol{z}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{z}\right\} (\boldsymbol{z+\mu})(\boldsymbol{z+\mu})^{T} \mathrm{d} \boldsymbol{z} \end{aligned}\tag{2.44}$
其中， $\boldsymbol{z = x - \mu}$ ， $\boldsymbol{z} = \sum_{j=1}^{D} y_i \boldsymbol{u_j}$ ， $y_i = \boldsymbol{u_j}^{T}\boldsymbol{z}$ 。

由此可以推導出：
$\mathbb{E}[\boldsymbol{x}\boldsymbol{x}^{T}] = \boldsymbol{\mu}\boldsymbol{u}^{T} + \boldsymbol{\Sigma}\tag{2.45}$
隨機變量 $\boldsymbol{x}$ 的協⽅差（covariance），定義爲：
$\text{var}[\boldsymbol{x}] = \mathbb{E}[(\boldsymbol{x} - \mathbb{E}[\boldsymbol{x}])(\boldsymbol{x} - \mathbb{E}[\boldsymbol{x}])^{T}]\tag{2.46}$
對於⾼斯分佈這⼀特例，我們可以使⽤ $\mathbb{E}[\boldsymbol{x}] = \boldsymbol{\mu}$ 以及公式(2.45)的結果，得到：
$\text{var}[\boldsymbol{x}] = \boldsymbol{\Sigma}\tag{2.47}$
由於參數 $\boldsymbol{\Sigma}$ 公式了⾼斯分佈下 $\boldsymbol{x}$ 的協⽅差，因此它被稱爲協⽅差矩陣。

二，條件⾼斯分佈

多元⾼斯分佈的⼀個重要性質：如果兩組變量是聯合⾼斯分佈，那麼以⼀組變量爲條件，另⼀組變量同樣是⾼斯分佈。

假設 $\boldsymbol{x}$ 是⼀個服從⾼斯分佈 $\mathcal{N}(\boldsymbol{x} | \boldsymbol{\mu}, \mathbf{\Sigma})$ 的 $D$ 維向量。我們把 $\boldsymbol{x}$ 劃分成兩個不相交的⼦集 $\boldsymbol{x}_a$ 和 $\boldsymbol{x}_b$ 。不失⼀般性，令 $\boldsymbol{x}_a$ 爲 $\boldsymbol{x}$ 的前 $M$ 個分量，令 $\boldsymbol{x}_b$ 爲剩餘的 $D − M$ 個分量，因此
$\boldsymbol{x} = \dbinom{\boldsymbol{x}_a}{\boldsymbol{x}_b}$
同理，對應的對均值向量 $\boldsymbol{\mu}$ 的劃分，即
$\boldsymbol{\mu} = \dbinom{\boldsymbol{\mu}_a}{\boldsymbol{\mu}_b}$
協⽅差矩陣 $\boldsymbol{\Sigma}$ 爲：
$\boldsymbol{\Sigma} = \begin{pmatrix} \boldsymbol{\Sigma}_{aa} & \boldsymbol{\Sigma}_{ab} \\ \boldsymbol{\Sigma}_{ba} & \boldsymbol{\Sigma}_{bb} \end{pmatrix}\tag{2.48}$
注意，協⽅差矩陣的對稱性 $\boldsymbol{\Sigma} ^T= \boldsymbol{\Sigma}$ 表明 $\boldsymbol{\Sigma}_{aa}$ 和 $\boldsymbol{\Sigma}_{bb}$ 也是對稱的，⽽ $\boldsymbol{\Sigma}_{ba} = \boldsymbol{\Sigma}_{ab}^{T}$ 。

在許多情況下，使⽤協⽅差矩陣的逆矩陣⽐較⽅便，也叫精度矩陣（precision matrix），即：
$\boldsymbol{\Lambda} \equiv \boldsymbol{\Sigma}^{-1}\tag{2.49}$
精度矩陣的劃分形式
$\boldsymbol{\Lambda} = \begin{pmatrix} \boldsymbol{\Lambda}_{aa} & \boldsymbol{\Lambda}_{ab} \\ \boldsymbol{\Lambda}_{ba} & \boldsymbol{\Lambda}_{bb} \end{pmatrix}$
關於分塊矩陣的逆矩陣的恆等式：
$\begin{pmatrix} \boldsymbol{A} & \boldsymbol{B} \\ \boldsymbol{C} & \boldsymbol{D} \end{pmatrix}^{-1} = \begin{pmatrix} \boldsymbol{M} & \boldsymbol{-MBD^{-1}} \\ \boldsymbol{-D^{-1}CM} & \boldsymbol{D^{-1}+CMBD^{-1}} \end{pmatrix}\tag{2.50}$
其中， $\boldsymbol{M = (A-BD^{-1}C)^{-1}}$ ， $\boldsymbol{M}^{-1}$ 被稱爲公式(2.50)左側矩陣關於⼦矩陣 $\boldsymbol{D}$ 的舒爾補（Schur complement）。

由以上公式和相關結論可以推導出條件概率分佈 $p(\boldsymbol{x}_a | \boldsymbol{x}_b)$ 的均值和協⽅差的表達式：
$\boldsymbol{\mu}_{a|b} = \boldsymbol{\mu}_a + \boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}(\boldsymbol{x}_b-\boldsymbol{\mu}_b)\tag{2.51}$

$\boldsymbol{\Sigma}_{a|b} = \boldsymbol{\Sigma}_{aa} - \boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}\boldsymbol{\Sigma}_{ba}\tag{2.52}$

三，邊緣⾼斯分佈

對於邊緣高斯分佈：
$p(\boldsymbol{x}_a) = \int p(\boldsymbol{x}_a, \boldsymbol{x}_b) \mathrm{d} \boldsymbol{x}_b\tag{2.53}$
同條件高斯分佈一樣，可以推導出邊緣概率分佈 $p(\boldsymbol{x}_a)$ 的均值和協⽅差的表達式：
$\boldsymbol{\Sigma}_{a} = (\boldsymbol{\Lambda}_{aa} - \boldsymbol{\Lambda}{ab}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba})^{-1}\tag{2.54}$

$\mathbb{E}[\boldsymbol{x}_a] = \boldsymbol{\mu}_a\tag{2.55}$

$\text{cov}[\boldsymbol{x}_a] = \boldsymbol{\Sigma}_{aa}\tag{2.56}$

如圖2.13，兩個變量上的⾼斯概率分佈 $p(x_a , x_b)$ 的輪廓線。

如圖2.14，邊緣概率分佈 $p(x_a)$ （藍⾊曲線）和 $x_b = 0.7$ 的條件概率分佈 $p(x_a | x_b)$ （紅⾊曲線）。

四，⾼斯變量的貝葉斯定理

令邊緣概率分佈和條件概率分佈的形式：
$p(\boldsymbol{x}) = \mathcal{N}(\boldsymbol{x} |\boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1})\tag{2.57}$

$p(\boldsymbol{y} | \boldsymbol{x}) = \mathcal{N}(\boldsymbol{y} |\boldsymbol{Ax+b}, \boldsymbol{L}^{-1})\tag{2.58}$

其中， $\boldsymbol{\mu}$ ， $\boldsymbol{A}$ 和 $\boldsymbol{b}$ 是控制均值的參數， $\boldsymbol{\Lambda}$ 和 $\boldsymbol{L}$ 是精度矩陣。如果 $\boldsymbol{x}$ 的維度爲 $M$ ， $\boldsymbol{y}$ 的維度爲 $D$ ，那麼矩陣 $A$ 的⼤⼩爲 $D \times M$ 。

⾸先，我們尋找 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ 的聯合分佈的表達式。令
$\boldsymbol{z} = \dbinom{\boldsymbol{x}}{\boldsymbol{y}}$
然後考慮聯合概率分佈的對數：
$\begin{aligned}\ln p(\boldsymbol{z}) &= \ln p(\boldsymbol{x}) + \ln p(\boldsymbol{y} | \boldsymbol{x}) \\ &= -\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \Lambda (\boldsymbol{x} - \boldsymbol{\mu}) \\ &-\frac{1}{2}(\boldsymbol{y} - \boldsymbol{Ax} - \boldsymbol{b})^{T} \boldsymbol{L} (\boldsymbol{y}-\boldsymbol{Ax}-\boldsymbol{b}) + 常數 \end{aligned} \tag{2.59}$
可以推導出， $\boldsymbol{z}$ 上的⾼斯分佈的精度矩陣（協⽅差的逆矩陣）爲：
$\boldsymbol{R} = \begin{pmatrix} \boldsymbol{\Lambda + A^{T}LA} & \boldsymbol{-A^{T}L} \\ \boldsymbol{-LA} & \boldsymbol{L} \end{pmatrix}$
從而， $\boldsymbol{z}$ 上的⾼斯分佈的均值和協⽅差的表達式：
$\text{cov}[\boldsymbol{z}] = \boldsymbol{R}^{-1} = \begin{pmatrix} \boldsymbol{\Lambda^{-1} } & \boldsymbol{\Lambda^{-1}A^{T}} \\ \boldsymbol{A\Lambda^{-1}} & \boldsymbol{L^{-1}+A\Lambda^{-1}A^{T}} \end{pmatrix}\tag{2.60}$

$\mathbb{E}[\boldsymbol{z}] = \boldsymbol{R}^{-1} \dbinom{\boldsymbol{\Lambda \mu - A^{T}Lb}}{\boldsymbol{Lb}}\tag{2.61}$

$\mathbb{E}[\boldsymbol{z}] = \dbinom{\boldsymbol{\mu}}{\boldsymbol{A\mu+b}}\tag{2.62}$

邊緣分佈 $p(\boldsymbol{y})$ 的均值和協⽅差爲：
$\mathbb{E}[\boldsymbol{y}] = \boldsymbol{A\mu+b}\tag{2.63}$

$\text{cov}[\boldsymbol{y}] = \boldsymbol{L^{-1}+A\Lambda^{-1}A^{T}}\tag{2.64}$

條件分佈 $p(\boldsymbol{x}|\boldsymbol{y})$ 的均值和協⽅差爲：
$\mathbb{E}[\boldsymbol{x} | \boldsymbol{y}] = (\boldsymbol{\Lambda + A^{T}LA})^{-1}\{ \boldsymbol{A^{T}L(y-b) + \Lambda \mu} \}\tag{2.65}$

$\text{cov}[\boldsymbol{x|y}] = (\boldsymbol{\Lambda + A^{T}LA})^{-1}\tag{2.66}$

五，⾼斯分佈的最⼤似然估計

給定⼀個數據集 $\boldsymbol{X} = (\boldsymbol{x}_1, \dots, \boldsymbol{x}_N)^T$ ，其中觀測 $\{\boldsymbol{x}_n\}$ 假定是獨⽴地從多元⾼斯分佈中抽取的。我們可以使⽤最⼤似然法估計分佈的參數。對數似然函數爲：
$\ln p(\boldsymbol{X|\mu, \Sigma}) = -\frac{ND}{2} \ln (2\pi) - \frac{N}{2}\ln \boldsymbol{|\Sigma|} - \frac{1}{2}\sum_{n=1}^{N}\boldsymbol{(x_n -\mu)^{T}\Sigma^{-1}(x_n-\mu)}\tag{2.67}$
令對數似然函數關於 $\mu$ 的導數爲零，可以求得均值的最大似然估計：
$\boldsymbol{\mu}_{ML} = \frac{1}{N}\sum_{n=1}^{N}\boldsymbol{x}_n\tag{2.68}$
方差的最大似然估計：
$\boldsymbol{\Sigma}_{ML} = \frac{1}{N}\sum_{n=1}^{N}(\boldsymbol{x}_n-\boldsymbol{\mu}_{ML})(\boldsymbol{x}_n-\boldsymbol{\mu}_{ML})^{T}\tag{2.69}$
從而，
$\mathbb{E}[\boldsymbol{\mu}_{ML}] = \boldsymbol{\mu}\tag{2.70}$

$\mathbb{E}[\boldsymbol{\Sigma}_{ML}] = \frac{N-1}{N}\boldsymbol{\Sigma}\tag{2.71}$

$\tilde {\boldsymbol{\Sigma}}_{ML} = \frac{1}{N}\sum_{n=1}^{N-1}(\boldsymbol{x}_n-\boldsymbol{\mu}_{ML})(\boldsymbol{x}_n-\boldsymbol{\mu}_{ML})^{T}\tag{2.72}$

六，順序估計

考慮公式(2.68)給出的均值的最⼤似然估計結果 $\boldsymbol{\mu}_{ML}$ 。當它依賴於第 $N$ 次觀察時，將記作 $\boldsymbol{\mu}_{ML}^{(N)}$ 。如果想分析最後⼀個數據點 $\boldsymbol{x}_N$ 的貢獻，即有：
$\begin{aligned} \boldsymbol{\mu}_{ML}^{(N)} &= \frac{1}{N}\sum_{n=1}^{N}\boldsymbol{x}_n \\ &= \frac{1}{N}\boldsymbol{x}_{N} + \frac{1}{N}\sum_{n=1}^{N-1}\boldsymbol{x}_n \\ &= \frac{1}{N}\boldsymbol{x}_{N} + \frac{N-1}{N} \boldsymbol{\mu}_{ML}^{(N-1)} \\ &= \boldsymbol{\mu}_{ML}^{(N-1)} + \frac{1}{N}(\boldsymbol{x}_{n} -\boldsymbol{\mu}_{ML}^{(N-1)}) \end{aligned}\tag{2.73}$
考慮⼀對隨機變量 $\theta$ 和 $z$ ，它們由⼀個聯合概率分佈 $p(z, \theta)$ 所控制。已知 $\theta$ 的條件下， $z$ 的條件期望定義了⼀個確定的函數 $f(\theta)$ ，叫迴歸函數，形式如下：
$f(\theta) \equiv \mathbb{E}[z|\theta] = \int zp(z|\theta)\mathrm{d}z\tag{2.74}$
如圖2.15，迴歸函數 $f(\theta)$ 。

⽬標是尋找根 $\theta^{∗}$ 使得 $f(\theta^{∗}) = 0$ 。如果有觀測 $z$ 和 $\theta$ 的⼀個⼤數據集，那麼可以直接對迴歸函數建模，得到根的⼀個估計。但是假設每次觀測到⼀個 $z$ 的值，我們想找到⼀個對應的順序估計⽅法來找到 $\theta^{∗}$ 。下⾯的解決這種問題的通⽤步驟由 Robbins and Monro（1951）給出。假定 $z$ 的條件⽅差是有窮的，即：
$\mathbb{E}[(z-f)^2|\theta] \lt \infty$
並且不失⼀般性，我們也假設當 $\theta \gt \theta^{∗}$ 時 $f(\theta) \gt 0$ ，當 $\theta \lt \theta^{∗}$ 時 $f(\theta) \lt 0$ ，Robbins-Monro 的⽅法定義了⼀個根 $\theta^{∗}$ 的順序估計的序列，由公式(2.75)給出。
$\theta^{(N)} = \theta^{(N-1)} + \alpha_{N-1}z(\theta^{(N-1)})\tag{2.75}$
其中 $z(\theta^{(N)})$ 是當 $\theta$ 的取值爲 $\theta (N)$ 時 $z$ 的觀測值。係數 $\{\alpha_N\}$ 表⽰⼀個滿⾜下列條件的正數序列：
$\lim_{N \to \infty}\alpha_{N}=0$

$\sum_{N=1}^{\infty} \alpha_{N} = \infty$

$\sum_{N=1}^{\infty} \alpha_{N}^{2} \lt \infty$

根據定義，最⼤似然解 $\theta_{ML}$ 是負對數似然函數的⼀個駐點，因此滿⾜：
$\left . \frac{\partial}{\partial \theta} \left\{\frac{1}{N}\sum_{n=1}^{N}- \ln p(x_N|\theta) \right\} \right|_{\theta_{ML}} = 0\tag{2.76}$
交換導數與求和，取極限 $N \to \infty$ ，可以尋找最⼤似然解對應於尋找回歸函數的根。於是可以應⽤ Robbins-Monro⽅法，此時它的形式爲：
$\theta^{(N)} = \theta^{(N-1)} + \alpha_{N-1} \frac{\partial}{\partial\theta^{(N-1)}} \left [-\ln p(x_N |\theta^{(N-1)}) \right ]\tag{2.77}$

七，⾼斯分佈的貝葉斯推斷

考慮⼀個⼀元⾼斯隨機變量 $\mathbf{x}$ ，我們假設⽅差 $\sigma^2$ 是已知的，其任務是從⼀組 $N$ 次觀測 $\mathbf{x}=(x_1,\dots, x_N)^T$ 中推斷均值 $\mu$ 。似然函數，即給定 $\mu$ 的情況下，觀測數據集出現的概率。它可以看成 $\mu$ 的函數，由公式(2.78)給出。
$p(\mathbf{x}|\mu) = \prod_{n=1}^{N}p(x_n|\mu) = \frac{1}{\left(2 \pi \sigma^{2}\right)^{\frac{N}{2}}} \exp \left\{-\frac{1}{2 \sigma^{2}}\sum_{n=1}^{N}(x_n-\mu)^{2}\right\}\tag{2.78}$
注意：似然函數 $p(\mathbf{x}|\mu)$ 不是 $\mu$ 的概率密度，沒有被歸⼀化。

如圖2.16，在⾼斯分佈的情形中，迴歸函數的形式。

令先驗概率分佈爲：
$p(\mu) = \mathcal{N}\left(\mu | \mu_0, \sigma_{0}^{2}\right)\tag{2.79}$
從⽽後驗概率爲：
$p(\mu | \mathbf{x}) = \mathcal{N}\left(\mu | \mu_N, \sigma_{N}^{2}\right)\tag{2.80}$
其中，
$\mu_N = \frac{\sigma^2}{N\sigma_{0}^2 + \sigma^2}\mu_0 + \frac{N\sigma_{0}^2}{N\sigma_{0}^2 + \sigma^2}\mu_{ML}$

$\frac{1}{\sigma_{N}^{2}} = \frac{1}{\sigma_{0}^{2}} + \frac{N}{\sigma^{2}}$

$\mu_{ML} = \frac{1}{N}\sum_{n=1}^{N}x_n$

圖2.17，⾼斯分佈均值的貝葉斯推斷。

現在假設均值是已知的，我們要推斷⽅差。令 $\lambda \equiv \frac{1}{\sigma^{2}}$ ， $\lambda$ 的似然函數的形式爲：

$p(\mathbf{x}|\lambda) = \prod_{n=1}^{N}\mathcal{N}(x_n|\mu, \lambda^{-1}) \propto \lambda^{\frac{N}{2}} \exp \left\{-\frac{\lambda}{2}\sum_{n=1}^{N}(x_n-\mu)^{2}\right\}\tag{2.81}$
對應的共軛先驗因此應該正⽐於 $\lambda$ 的冪指數，也正⽐於 $\lambda$ 的線性函數的指數。這對應於 Gamma分佈，定義爲：
$\text{Gam}(\lambda|a,b) = \frac{1}{\Gamma(a)}b^{a}\lambda^{a-1}\exp (-b\lambda)\tag{2.82}$
均值和協⽅差分別爲：
$\mathbb{E}[\lambda] = \frac{a}{b}\tag{2.83}$

$\text{var}[\lambda] = \frac{a}{b^2}\tag{2.84}$

如圖2.18～2.20，不同的 $a$ 和 $b$ 的情況下 Gamma分佈的圖像。

考慮⼀個先驗分佈 $\text{Gam}(\lambda|a_0,b_0)$ 。如果乘以公式(2.81)給出的似然函數，那麼即可得到後驗分佈：
$p(\lambda | \mathbf{x}) \propto \lambda^{a_0-1} \lambda^{\frac{N}{2}} \exp \left\{-b_0 \lambda -\frac{\lambda}{2}\sum_{n=1}^{N}(x_n-\mu)^{2}\right\}\tag{2.85}$
我們可以把它看成形式爲 $\text{Gam}(\lambda|a_N,b_N)$ 的 Gamma分佈，其中
$a_N = a_0 + \frac{N}{2}$

$b_N = b_0 \frac{1}{2}\sum_{n=1}^{N}(x_n-\mu)^2 = b_0 + \frac{N}{2}\sigma_{ML}^{2}$

現在假設均值和精度都是未知的。爲了找到共軛先驗，考慮似然函數對於 $\mu$ 和 $\lambda$ 的依賴關係：
$\begin{aligned} p(\mathbf{x}|\mu,\lambda) &= \prod_{n=1}^{N} \left(\frac{\lambda}{2\pi} \right)^{\frac{1}{2}} \exp \left\{-\frac{\lambda}{2}(x_n-\mu)^{2}\right\} \\ &\propto \left[\lambda^{\frac{1}{2}} \exp\left(-\frac{\lambda \mu^{2}}{2}\right) \right]^{N} \exp \left\{\lambda \mu \sum_{n=1}^{N}x_n - \frac{\lambda}{2}\sum_{n=1}^{N}x_{n}^{2}\right\} \end{aligned}\tag{2.86}$
假設先驗分佈的形式爲：
$\begin{aligned} p(\mu,\lambda) &= \exp \left\{-\frac{\beta \lambda}{2}\left(\mu-\frac{c}{\beta}\right)^2 \right\} \lambda^{\frac{\beta}{2}} \exp \left\{-\left(d-\frac{c^2}{2\beta}\right)\lambda \right\} \\ &\propto \left[\lambda^{\frac{1}{2}} \exp\left(-\frac{\lambda \mu^{2}}{2}\right) \right]^{\beta} \exp \left\{c\lambda \mu - d\lambda\right\} \end{aligned}\tag{2.87}$
其中 $c, d$ 和 $\beta$ 都是常數。

歸⼀化的先驗概率的形式爲：
$p(\mu,\lambda) = \mathcal{N}(\mu|\mu_0, (\beta \lambda)^{-1})\text{Gam}(\lambda|a,b)\tag{2.88}$
這被稱爲正態-Gamma分佈或者⾼斯-Gamma分佈。如圖2.21：

對於 $D$ 維向量 $\boldsymbol{x}$ 的多元⾼斯分佈 $\mathcal{N}(\boldsymbol{x|\mu, \Lambda}^{−1})$ ，假設精度已知，則均值 $\boldsymbol{\mu}$ 的共軛先驗分佈仍然是⾼斯分佈。對於已知均值未知精度矩陣 $\boldsymbol{\Lambda}$ 的情形，共軛先驗是**Wishart分佈**，定義爲：
$\mathcal{W}(\mathbf{\Lambda} | \boldsymbol{W}, \nu)=B|\boldsymbol{\Lambda}|^{\frac{\nu-D-1}{2}} \exp \left(-\frac{1}{2} \operatorname{Tr}\left(\boldsymbol{W}^{-1} \boldsymbol{\Lambda}\right)\right)\tag{2.89}$

其中 $\nu$ 被稱爲分佈的⾃由度數量(degrees of freedom)， $\boldsymbol{W}$ 是⼀個 $D \times D$ 的標量矩陣， $\operatorname{Tr}(·)$ 表⽰矩陣的跡。歸⼀化係數 $B$ 爲：
$B(\boldsymbol{W}, \nu)=|\boldsymbol{W}|^{-\frac{\nu}{2}}\left(2^{\frac{\nu D}{2}} \pi^{\frac{D(D-1)}{4}} \prod_{i=1}^{D} \Gamma\left(\frac{\nu+1-i}{2}\right)\right)^{-1}\tag{2.90}$
如果均值和精度都是未知的，那麼類似於⼀元變量的推理⽅法，共軛先驗爲：
$p(\boldsymbol{\mu,\Lambda|\mu}_0,\beta,\boldsymbol{W}, \nu) = \mathcal{N}(\boldsymbol{\mu|\mu}_0, (\beta \boldsymbol{\Lambda})^{-1})\mathcal{W}(\mathbf{\Lambda} | \boldsymbol{W}, \nu)\tag{2.91}$
這被稱爲正態-Wishart分佈或者⾼斯-Wishart分佈。

八，學生 $\mathbf{t}$ 分佈

如果有⼀個⼀元⾼斯分佈 $\mathcal{N}\left(x | \mu, \tau^{-1}\right)$ 和⼀個 Gamma先驗分佈 $\text{Gam}(\tau|a, b)$ ，把精度積分出來，便可以得到 $x$ 的邊緣分佈，形式爲：
$\begin{aligned} p(x | \mu, a, b) &=\int_{0}^{\infty} \mathcal{N}\left(x | \mu, \tau^{-1}\right) \operatorname{Gam}(\tau | a, b) \mathrm{d} \tau \\ &=\int_{0}^{\infty} \frac{b^{a} e^{(-b r)} \tau^{a-1}}{\Gamma(a)}\left(\frac{\tau}{2 \pi}\right)^{\frac{1}{2}} \exp \left\{-\frac{\tau}{2}(x-\mu)^{2}\right\} \mathrm{d} \tau \\ &=\frac{b^{a}}{\Gamma(a)}\left(\frac{1}{2 \pi}\right)^{\frac{1}{2}}\left[b+\frac{(x-\mu)^{2}}{2}\right]^{-a-\frac{1}{2}} \Gamma\left(a+\frac{1}{2}\right) \end{aligned}\tag{2.92}$
形如 $p(x|\mu a,b)$ 如下：
$\text{St}(x|\mu,\lambda,\nu) = \frac{\Gamma(\frac{\nu}{2}+\frac{1}{2})}{\Gamma(\frac{\nu}{2})}\left(\frac{\lambda}{\pi \nu}\right)^{\frac{1}{2}}\left[1+\frac{\lambda(x-\mu)^2}{\nu}\right]^{-\frac{\nu}{2}-\frac{1}{2}}\tag{2.93}$
稱爲學生 t 分佈（Student's t-distribution）。參數 $\lambda$ 有時被稱爲 $\mathbf{t}$ 分佈的精度（precision），即使它通常不等於⽅差的倒數。參數 $\nu$ 被稱爲⾃由度（degrees of freedom）。如圖2.22：

學生 $\mathbf{t}$ 分佈的⼀個重要性質：魯棒性（robustness），即對於數據集⾥的⼏個離羣點outlier的出現，分佈不會像⾼斯分佈那樣敏感。

圖 2.23，從⼀個⾼斯分佈中抽取的30個數據點的直⽅圖，以及得到的最⼤似然擬合。紅⾊曲線表⽰使⽤ $\mathbf{t}$ 分佈進⾏的擬合，綠⾊曲線（⼤部分隱藏在了紅⾊曲線後⾯）表⽰使⽤⾼斯分佈進⾏的擬合。由於 $\mathbf{t}$ 分佈將⾼斯分佈作爲⼀種特例，因此它給出了與⾼斯分佈⼏乎相同的解。

圖 2.24，與圖2.23同樣的數據集，但是多了三個異常數據點。這幅圖展⽰了⾼斯分佈（綠⾊曲線）是如何被異常點強烈地⼲擾的，⽽ $\mathbf{t}$ 分佈（紅⾊曲線）相對不受影響。

推⼴到多元⾼斯分佈 $\mathcal{N}(\boldsymbol{x|\mu, \Lambda})$ 來得到對應的多元學生 $\mathbf{t}$ 分佈，形式爲：
$\operatorname{St}(\boldsymbol{x} | \boldsymbol{\mu}, \boldsymbol{\Lambda}, \nu)=\int_{0}^{\infty} \mathcal{N}\left(\boldsymbol{x} | \boldsymbol{\mu},(\eta \boldsymbol{\Lambda})^{-1}\right) \operatorname{Gam}\left(\eta | \frac{\nu}{2}, \frac{\nu}{2}\right) \mathrm{d} \nu \tag{2.94}$
求積分，可得：
$\text{St}(\boldsymbol{x} | \boldsymbol{\mu}, \boldsymbol{\Lambda},,\nu) = \frac{\Gamma(\frac{\nu}{2}+\frac{D}{2})}{\Gamma(\frac{\nu}{2})}\left(\frac{|\boldsymbol{\Lambda}|}{(\pi \nu)^D}\right)^{\frac{1}{2}}\left[1+\frac{\Delta^{2}}{\nu}\right]^{-\frac{\nu}{2}-\frac{D}{2}}\tag{2.95}$
其中 $D$ 是 $\boldsymbol{x}$ 的維度， $\Delta^2$ 是平⽅馬⽒距離，定義爲：
$\Delta^2 = (\boldsymbol{x-\mu})^T \boldsymbol{\Lambda} (\boldsymbol{x-\mu})\tag{2.96}$
多元變量形式的學生 $\mathbf{t}$ 分佈，滿⾜下⾯的性質：

1） $\mathbb{E}[\boldsymbol{x}] = \boldsymbol{\mu}$ 如果 $\nu \gt 1$

2） $\text{cov}[\boldsymbol{x}] = \frac{\nu}{\nu-2}\boldsymbol{\Lambda}^{-1}$ 如果 $\nu \gt 2$

3） $\text{mode}[\boldsymbol{x}] = \boldsymbol{\mu}$

九，週期變量

考察⼀個⼆維單位向量 $\boldsymbol{x}_1,\dots,\boldsymbol{x}_N$ ，其中 $||\boldsymbol{x}_n|| = 1$ 且 $n = 1,\dots , N$ ，如圖2.25所⽰。

可以對向量 $\{\boldsymbol{x}_n\}$ 求平均，可得
$\bar{\boldsymbol{x}} = \frac{1}{N}\sum_{n=1}^{N}\boldsymbol{x}_n$
注意， $\bar{\boldsymbol{x}}$ 通常位於單位圓的內部。

$\bar{\boldsymbol{x}}$ 對應的角度 $\bar{\theta}$ 爲：
$\bar{\theta} = \tan^{-1} \left\{\frac{\sum_{n}\sin \theta_n}{\sum_{n}\cos \theta_n} \right\}\tag{2.97}$
考慮的週期概率分佈 $p(\theta)$ 的週期爲 $2\pi$ 。 $\theta$ 上的任何概率密度 $p(\theta)$ ⼀定⾮負，積分等於1，並且⼀定是週期性的。因此， $p(\theta)$ ⼀定滿⾜下⾯三個條件：

1） $p(\theta) \ge 0$

2） $\int_{0}^{2\pi} p(\theta) \mathrm{d}\theta = 1$

3） $p(\theta + 2\pi) = p(\theta)$

考慮兩個變量 $\boldsymbol{x} = (x_1 , x_2)$ 的⾼斯分佈，均值爲 $\boldsymbol{\mu} = (\mu_1, \mu_2)$ ，協⽅差矩陣爲 $\boldsymbol{\Sigma} = \sigma^2 \boldsymbol{I}$ ，其中 $\boldsymbol{I}$ 是⼀個 $2\times2$ 的單位矩陣。因此有：
$p(x_1,x_2) = \frac{1}{2\pi \sigma^{2}} \exp \left\{-\frac{(x_1-\mu_1)^2+(x_2-\mu_2)^{2}}{2\sigma^{2}}\right\}\tag{2.98}$
von Mises分佈(環形正態分佈（circular normal））：在單位圓 $r=1$ 上的概率分佈 $p(\theta)$ 的最終表達式：
$p(\theta|\theta_0,m) = \frac{1}{2\pi I_0(m)} \exp \left\{m\cos(\theta-\theta_0)\right\}\tag{2.99}$
其中，參數 $\theta_0$ 對應於分佈的均值， $m$ 被稱爲 concentration參數，類似於⾼斯分佈的⽅差的倒數（精度）。歸⼀化係數包含項 $I_0 (m)$ ，是零階修正的第⼀類Bessel函數（Abramowitz and Stegun, 1965），定義爲：
$I_0(m) = \frac{1}{2\pi} \int_{0}^{2\pi}\exp\{m\cos \theta\}\mathrm{d}\theta\tag{2.100}$
如圖2.26～2.27，von Mises分佈的圖像。

如圖2.28， Bessel函數 $I_0 (m)$ 的圖像。

現在考慮 von Mises分佈 的參數 $\theta_0$ 和參數 $m$ 的最⼤似然估計。對數似然函數爲：
$\ln p(\mathcal{D} | \theta_0,m)=-N\ln (2\pi)-\ln I_0(m)+m\sum_{n=1}^{N}\cos(\theta_n-\theta_0)\tag{2.101}$
令其關於 $\theta_0$ 的導數等於零，從⽽可以得到：
$\theta_{0}^{ML} = \tan^{-1} \left\{\frac{\sum_{n}\sin \theta_n}{\sum_{n}\cos \theta_n} \right\}\tag{2.102}$
關於 $m$ 最⼤化公式(2.101)，使⽤ $I_0^{\prime}(m)=I_1(m)$ （Abramowitz and Stegun, 1965），從⽽可以得到：
$A(m_{NL})=\frac{1}{N}\sum_{n=1}^{N}\cos(\theta_{n}-\theta_{0}^{ML})\tag{2.103}$
令
$A(m)=\frac{I_1(m)}{I_0(m)}$
可以得到：
$A(m_{ML})=\left(\frac{1}{N}\sum_{n=1}^{N}\cos \theta_{n}\right)\cos \theta_{0}^{ML} + \left(\frac{1}{N}\sum_{n=1}^{N}\sin \theta_{n}\right)\sin \theta_{0}^{ML}\tag{2.104}$

如圖2.29，函數 $A (m)$ 的圖像。

十，混合高斯模型

通過將更基本的概率分佈（例如⾼斯分佈）進⾏線性組合的這樣的疊加⽅法，可以被形式化爲概率模型，被稱爲混合模型（mixture distributions）（McLachlan and Basford, 1988; McLachlan and Peel, 2000）。

考慮 $K$ 個⾼斯概率密度的疊加，形式爲：
$p(\boldsymbol{x}) = \sum_{k=1}^{K} \pi_{k} \mathcal{N}(\boldsymbol{x} |\boldsymbol{\mu_{k}}, \boldsymbol{\Sigma}_{k})\tag{2.105}$
這被稱爲混合⾼斯（mixture of Gaussians）。每⼀個⾼斯概率密度 $\mathcal{N}(\boldsymbol{x} |\boldsymbol{\mu_{k}}, \boldsymbol{\Sigma}_{k})$ 被稱爲混合分佈的⼀個成分（component），並且有⾃⼰的均值 $\boldsymbol{\mu_{k}}$ 和協⽅差 $\boldsymbol{\Sigma}_{k}$ 。參數 $\pi_{k}$ 被稱爲混合係數（mixing coefficients），並且滿足以下條件：

1） $\sum_{k=1}^{K} \pi_{k}=1$
2） $0\le \pi_{k} \le 1$

如圖2.30，每個混合分量的常數概率密度輪廓線，其中三個分量分別被標記爲紅⾊、藍⾊和綠⾊，且混合係數的值在每個分量的下⽅給出。

如圖2.31，混合分佈的邊緣概率密度 $p(\boldsymbol{x})$ 的輪廓線。

如圖2.32，概率分佈 $p(\boldsymbol{x})$ 的⼀個曲⾯圖。

【機器學習基礎】概率分佈之高斯分佈

一，多元高斯分佈

二，條件⾼斯分佈

三，邊緣⾼斯分佈

四，⾼斯變量的貝葉斯定理

五，⾼斯分佈的最⼤似然估計

六，順序估計

七，⾼斯分佈的貝葉斯推斷

八，學生 $\mathbf{t}$ 分佈

九，週期變量

十，混合高斯模型

【Python編碼規範】基礎語法

【機器學習基礎】概率分佈之高斯分佈

【機器學習基礎】線性基函數模型

【機器學習基礎】概率分佈之變量

【機器學習基礎】概率分佈之指數族分佈

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

【機器學習基礎】概率分佈之高斯分佈

一，多元高斯分佈

二，條件⾼斯分佈

三，邊緣⾼斯分佈

四，⾼斯變量的貝葉斯定理

五，⾼斯分佈的最⼤似然估計

六，順序估計

七，⾼斯分佈的貝葉斯推斷

八，學生 t\mathbf{t}t 分佈

九，週期變量

十，混合高斯模型

八，學生 $\mathbf{t}$ 分佈