多元條件高斯分佈的均值和方差的數學推導（Bishop: Patten Recognition and Machine Learning 第二章）

高斯分佈是概率統計、機器學習等領域非常重要的一類分佈，而多元高斯分佈是單元高斯分佈在高維數據下的表現形式。多元高斯分佈中有一條重要的性質，如果兩個變量集的聯合是高斯分佈，那麼其中一個變量集在以另一個變量集爲條件下的分佈依然是高斯分佈，並且可以通過公式推導求出該條件的期望和方差。下面給出具體分析。
假設D維向量x服從高斯分佈 $N(\textbf{x}|\bm{\mu}, \bm{\Sigma})$ ，將x分割爲兩個分量 $x_a$ 和 $x_b$ ，其中 $x_a$ 包含x的前M個分量， $x_b$ 中則包含剩餘D-M個分量，相應的，將均值和方差也按照同樣的規則分割，即

其中， $\bm{\Sigma}$ 爲對稱矩陣，並且 $\bm{\Sigma}_{aa}$ 和 $\bm{\Sigma}_{bb}$ 均爲對稱矩陣， $\bm{\Sigma}_{ba}=\bm{\Sigma}_{ab}^T$ .
同時給出， $\bm{\Lambda}=\bm{\Sigma}^{-1}$ ，並且將其按同等尺寸分割，即

需要確定的是條件概率 $p(x_a|x_b)$ ，按照常規方法，可以通過乘法概率來求條件概率，此時需要聯合分佈 $p(x_a,x_b)$ 以及邊緣分佈 $p(x_b)$ ，這種方法比較複雜，我們可以通過對高斯分佈中指數項裏的二次型進行探索，從而得到想要的結果。
我們知道，多元高斯分佈的概率密度（記爲式1）爲：
係數項是常數，現在只考慮指數項，經過變量分割之後，指數項可以轉化爲如下形式（記爲式2）：
可以看到，上式看作 $x_a$ 的函數時仍爲二次形式，因此條件概率 $p(x_a|x_b)$ 仍爲高斯分佈。現在需要求出該分佈的期望和方差。
首先將指數項改寫爲以下形式（記爲式3）：
其中，const是與x無關的常數，並且該轉換用到了 $\bm{\Sigma}$ 是對稱矩陣這一性質。
觀察上式可以發現，如果將條件分佈的指數項也寫爲上述形式，那麼只需在轉化之後的式中，找出 $x_a$ 的係數即爲要求的 $\bm{\Sigma}^{-1}$ ，再找出 $x_a$ 的一次項的係數即爲 $\bm{\Sigma}^{-1}\mu$ ，由於 $\bm{\Sigma}^{-1}$ 已經求出， $\mu$ 也可隨之求出。
將式2整理爲式3對應的形式後可以發現，含x的二次項的部分爲

從而得到，

含x的一次項的部分爲

前邊提到，一次項的係數恰好是 $\bm{\Sigma}^{-1}\mu$ ，從而得到，

此時我們已經得到了條件分佈 $p(x_a|x_b)$ 的均值和方差，但是都是以矩陣 $\bm{\Lambda}$ 爲基礎來表示的，如果想要使用 $\bm{\Sigma}$ 來表示，還需要進行一些變換。
首先引入分塊矩陣的求逆法則：
其中，

矩陣 $\bm{\Lambda}$ 和矩陣 $\bm{\Sigma}$ 之間的關係用分割之後的形式可以表示爲

對應分塊矩陣的求逆法則中各部分，可以得到：

將上述結果帶入到已經求出的均值和方差的表達式中，可以得到最終結果：

至此，多元條件高斯分佈的均值、方差的推導過程就完成了。