多元條件高斯分佈的均值和方差的數學推導(Bishop: Patten Recognition and Machine Learning 第二章)

高斯分佈是概率統計、機器學習等領域非常重要的一類分佈,而多元高斯分佈是單元高斯分佈在高維數據下的表現形式。多元高斯分佈中有一條重要的性質,如果兩個變量集的聯合是高斯分佈,那麼其中一個變量集在以另一個變量集爲條件下的分佈依然是高斯分佈,並且可以通過公式推導求出該條件的期望和方差。下面給出具體分析。
假設D維向量x服從高斯分佈N(xμ,Σ)N(\textbf{x}|\bm{\mu}, \bm{\Sigma}),將x分割爲兩個分量xax_axbx_b,其中xax_a包含x的前M個分量,xbx_b中則包含剩餘D-M個分量,相應的,將均值和方差也按照同樣的規則分割,即
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
其中,Σ\bm{\Sigma}爲對稱矩陣,並且Σaa\bm{\Sigma}_{aa}Σbb\bm{\Sigma}_{bb}均爲對稱矩陣,Σba=ΣabT\bm{\Sigma}_{ba}=\bm{\Sigma}_{ab}^T.
同時給出,Λ=Σ1\bm{\Lambda}=\bm{\Sigma}^{-1},並且將其按同等尺寸分割,即
在這裏插入圖片描述
需要確定的是條件概率p(xaxb)p(x_a|x_b),按照常規方法,可以通過乘法概率來求條件概率,此時需要聯合分佈p(xa,xb)p(x_a,x_b)以及邊緣分佈p(xb)p(x_b),這種方法比較複雜,我們可以通過對高斯分佈中指數項裏的二次型進行探索,從而得到想要的結果。
我們知道,多元高斯分佈的概率密度(記爲式1)爲:
在這裏插入圖片描述係數項是常數,現在只考慮指數項,經過變量分割之後,指數項可以轉化爲如下形式(記爲式2):
在這裏插入圖片描述可以看到,上式看作xax_a的函數時仍爲二次形式,因此條件概率p(xaxb)p(x_a|x_b)仍爲高斯分佈。現在需要求出該分佈的期望和方差。
首先將指數項改寫爲以下形式(記爲式3):
在這裏插入圖片描述其中,const是與x無關的常數,並且該轉換用到了Σ\bm{\Sigma}是對稱矩陣這一性質。
觀察上式可以發現,如果將條件分佈的指數項也寫爲上述形式,那麼只需在轉化之後的式中,找出xax_a的係數即爲要求的Σ1\bm{\Sigma}^{-1},再找出xax_a的一次項的係數即爲Σ1μ\bm{\Sigma}^{-1}\mu,由於Σ1\bm{\Sigma}^{-1}已經求出,μ\mu也可隨之求出。
將式2整理爲式3對應的形式後可以發現,含x的二次項的部分爲
在這裏插入圖片描述
從而得到,
在這裏插入圖片描述
含x的一次項的部分爲
在這裏插入圖片描述
前邊提到,一次項的係數恰好是Σ1μ\bm{\Sigma}^{-1}\mu,從而得到,
在這裏插入圖片描述
此時我們已經得到了條件分佈p(xaxb)p(x_a|x_b)的均值和方差,但是都是以矩陣Λ\bm{\Lambda}爲基礎來表示的,如果想要使用Σ\bm{\Sigma}來表示,還需要進行一些變換。
首先引入分塊矩陣的求逆法則:
在這裏插入圖片描述其中,
在這裏插入圖片描述
矩陣Λ\bm{\Lambda}和矩陣Σ\bm{\Sigma}之間的關係用分割之後的形式可以表示爲
在這裏插入圖片描述
對應分塊矩陣的求逆法則中各部分,可以得到:
在這裏插入圖片描述
將上述結果帶入到已經求出的均值和方差的表達式中,可以得到最終結果:
在這裏插入圖片描述
至此,多元條件高斯分佈的均值、方差的推導過程就完成了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章