理解多元高斯分佈

本文主要轉載自參考文獻【1,2】。雖然公式看起來比較多,並且似乎很複雜,其實並不難理解,靜下心來慢慢看。其中,爲了進一步增加可理解性,標色的爲我在原文基礎上加入的自己的理解。


一、多元標準高斯分佈

熟悉一元高斯分佈的同學都知道, 若隨機變量XN(μ,σ2)X \sim \mathcal{N}(\mu, \sigma^2) , 則有如下的概率密度函數
在這裏插入圖片描述
而如果我們對隨機變量XX進行標準化, 用 Z=XμσZ = \frac{X - \mu}{\sigma}對(1)進行換元, 繼而有
在這裏插入圖片描述

此時我們說隨機變量ZN(0,1)Z \sim \mathcal{N}(0, 1)服從一元標準高斯分佈( ZZ是標準正態分佈,下文多次用到), 其均值μ=0\mu = 0, 方差 σ2=1\sigma^2 = 1,其概率密度函數爲
在這裏插入圖片描述
需要注意的是, 爲了保證概率密度函數在RR上的積分爲1, 換元時需要求dx=σdzdx = \sigma \cdot dz, 從而得到(3).

隨機變量XX 標準化的過程, 實際上是消除量綱影響和分佈差異的過程. 通過將隨機變量的值減去其均值再除以標準差, 使得隨機變量與其均值的差距可以用若干個標準差來衡量, 從而實現了不同隨機變量與其對應均值的差距, 可以以一種相對的距離來進行比較.

一元標準高斯分佈與我們討論多元標準高斯分佈有什麼關係呢? 事實上, 多元標準高斯分佈的概率密度函數正是從(4)導出的. 假設我們有隨機向量Z=[Z1,,Zn]\vec{Z} = [Z_1, \cdots, Z_n]^\top , 其中 ZiN(0,1)(i=1,,n)Z_i \sim \mathcal{N}(0, 1) (i = 1, \cdots, n)Zi,Zj(i,j=1,,nij)Z_i, Z_j(i, j = 1, \cdots, n \wedge i \neq j) 彼此獨立, 即隨機向量中的每個隨機變量ZiZ_{i}都服從標準高斯分佈且兩兩彼此獨立. 則由(4)與獨立隨機變量概率密度函數之間的關係, 我們可得隨機向量Z=[Z1,,Zn]\vec{Z} = [Z_1, \cdots, Z_n]^\top 的聯合概率密度函數爲

在這裏插入圖片描述
我們稱隨機向量ZN(0,I)\vec{Z} \sim \mathcal{N}(\vec{0}, \mathbf{I}) , 即隨機向量服從均值爲零向量, 協方差矩陣爲單位矩陣的高斯分佈( 隨機向量中的每個隨機變量ZiZ_{i}都服從標準高斯分佈且兩兩彼此獨立). 在這裏, 隨機向量Z\vec{Z}的協方差矩陣是Conv(Zi,Zj),i,j=1,,nConv(Z_i, Z_j), i, j = 1, \cdots, n 組成的矩陣, 即
在這裏插入圖片描述
由於隨機向量ZN(0,I)\vec{Z} \sim \mathcal{N}(\vec{0}, \mathbf{I}) , 所以其協方差矩陣的對角線元素爲1, 其餘元素爲0. 如果我們取常數c=p(z1,,zn)c = p(z_1, \cdots, z_n) , 則可得函數 p(z1,,zn)p(z_1, \cdots, z_n) 的等高線爲c=ZZc = Z^\top Z , 當隨機向量Z\vec{Z}爲二維向量時, 我們有
在這裏插入圖片描述
等高線可以這麼理解:概率密度函數p=cp=c就是概率密度函數的等高線,觀察概率密度公式,發現只有ZZZ^\top Z不是常數,而其餘部分都是常數,即ZZZ^\top Z實際上決定了c的值。

由(7)我們可知, 其等高線爲以(0, 0)爲圓心的同心圓.
在這裏插入圖片描述

二、多元高斯分佈

由上一節我們知道, 當隨機向量ZN(0,I)\vec{Z} \sim \mathcal{N}(\vec{0}, \mathbf{I})時, 其每個隨機變量ZiN(0,1)(i=1,,n)Z_i \sim \mathcal{N}(0, 1) (i = 1, \cdots, n)彼此獨立, 我們可通過(4)與獨立隨機變量概率密度函數之間的關係得出其聯合概率密度函數(5). 那對於普通的隨機向量XN(μ,Σ)\vec{X} \sim \mathcal{N}(\vec{\mu}, \Sigma) , 即其每個隨機變量 XiN(μi,σi2)(i=1,,n)X_i \sim \mathcal{N}(\mu_i, \sigma_i^2) (i = 1, \cdots, n)Xi,Xj(i,j=1,,n)X_i, X_j(i, j = 1, \cdots, n)彼此不獨立的情況下, 我們該如何求隨機向量$$ 的聯合概率密度函數呢? 一個很自然的想法是, 如果我們能通過線性變換, 使得隨機向量 X\vec{X} 中的每個隨機變量彼此獨立, 則我們也可以通過獨立隨機變量概率密度函數之間的關係求出其聯合概率密度函數. 事實上, 我們有如下定理可完成這個工作(來源)

定理1: 若存在隨機向量XN(μ,Σ)\vec{X} \sim \mathcal{N}(\vec{\mu}, \Sigma) , 其中 μRn\vec{\mu} \in R^n爲均值向量, ΣS++n×n\Sigma \in S^{n \times n}_{++}半正定實對稱矩陣爲 X\vec{X} 的協方差矩陣, 則存在滿秩矩陣BRn×nB \in R^{n \times n}, 使得Z=B1(Xμ)\vec{Z} = B^{-1}(\vec{X} - \vec{\mu}) , 而 ZN(0,I)\vec{Z} \sim \mathcal{N}(\vec{0}, \mathbf{I}).

有了定理1, 我們就可以對隨機向量X\vec{X} 做相應的線性變換, 使其隨機變量在線性變換後彼此獨立, 從而求出其聯合概率密度函數, 具體地
在這裏插入圖片描述
由多元函數換元變換公式(與一元中換元dx=σdzdx = \sigma \cdot dz是一個意思,只不過多元需要求雅可比行列式), 我們還需要求出雅可比行列式 J(ZX)J(\vec{Z} \to \vec{X}), 由(8)可得
在這裏插入圖片描述
由(9)(10), 我們可進一步得
在這裏插入圖片描述
我們得到隨機向量 XN(μ,Σ)\vec{X} \sim \mathcal{N}(\vec{\mu}, \Sigma) 的聯合概率密度函數爲
在這裏插入圖片描述
在(12)中, 隨機向量X\vec{X} 的協方差矩陣還未得到體現, 我們可通過線性變換(8)做進一步處理
在這裏插入圖片描述
根據(13),我們發現, (12)中BBBB^\top就是線性變換前的隨機向量 XN(μ,Σ)\vec{X} \sim \mathcal{N}(\vec{\mu}, \Sigma)的協方差矩陣Σ\Sigma , 所以由(12)(13), 我們可以得到聯合概率密度函數的最終形式
在這裏插入圖片描述
原本由定理1, 我們還需要求線性變換矩陣 BB , 才能確定隨機向量 X\vec{X} 的聯合概率密度函數的表達式, 現在由(13)我們即可得最終形式(14), 隨機向量 X\vec{X} 的聯合概率密度函數由其均值向量 μ\vec{\mu} 和其協方差矩陣 Σ\Sigma唯一確定, 但我們需要明白的是, 這是通過定理1的線性變換 Z=B1(Xμ)\vec{Z} = B^{-1}(\vec{X} - \vec{\mu})得到的, 即此線性變換隱含其中.

如果我們取常數 c=p(x1,,xn)c = p(x_1, \cdots, x_n) , 則可得函數p(x1,,xn)p(x_1, \cdots, x_n)的等高線爲c=(Xμ)Σ1(Xμ)c= (\vec{X} - \vec{\mu})^\top \Sigma^{-1}(\vec{X} - \vec{\mu}) , 當隨機向量X\vec{X}爲二維向量時, 我們對協方差矩陣Σ\Sigma進行分解, 因爲其爲實對稱矩陣, 可正交對角化(理論
在這裏插入圖片描述
由於矩陣QQ 是酉矩陣, 所以 Q(Xμ)=QXQuQ^\top (\vec{X} - \vec{\mu}) = Q^\top \vec{X} - Q^\top \vec{u} 可以理解爲將隨機向量 X\vec{X} , 均值向量 μ\vec{\mu} 在矩陣QQ 的列向量所組成的單位正交基上進行投影並在該單位正交基上進行相減. 我們不妨記投影后的向量分別爲XQ=QX,uQ=Qμ\vec{X}_Q = Q^\top \vec{X}, \vec{u}_Q = Q^\top \vec{\mu} , 同時記矩陣 Λ=[λ1;00;λ2],λ1λ2\Lambda = \begin{bmatrix} \lambda_1 ; 0 \\ 0 ; \lambda_2\end{bmatrix}, \lambda_1 \geq \lambda_2, 則(15)的二次型可表示爲
在這裏插入圖片描述
由(16)我們可知, 此時函數p(x1,,xn)p(x_1, \cdots, x_n) 的等高線是在矩陣QQ 的列向量所組成的單位正交基上的一個橢圓, 橢圓的中心是uQ=[μQ1,μQ2]\vec{u}_{Q} = [\mu_{Q_1}, \mu_{Q_2}]^\top , 長半軸爲 λ1\sqrt{\lambda_1} , 短半軸爲λ2\sqrt{\lambda_2} .

如果協方差矩陣Σ\Sigma 不是對角矩陣, 則正交對角化得到的酉矩陣 QQ 不是標準正交基, 其代表一個旋轉, 此時的橢圓應該是一個傾斜的橢圓, 隨機向量X\vec{X} 中的隨機變量不是彼此獨立的;
在這裏插入圖片描述
如果協方差矩陣 Σ\Sigma 是對角矩陣, 則正交對角化得到的酉矩陣 QQ 就是標準正交基, 則前述的投影是在標準正交基上完成的, 此時的橢圓應該是一個水平的橢圓, 隨機向量 X\vec{X} 中的隨機變量就是彼此獨立的.
在這裏插入圖片描述

三、多元高斯分佈的幾何意義

現在我們知道, 隨機向量 XN(μ,Σ)\vec{X} \sim \mathcal{N}(\vec{\mu}, \Sigma) 的聯合概率密度函數是通過線性變換 Z=B1(Xμ)\vec{Z} = B^{-1}(\vec{X} - \vec{\mu}) 的幫助, 將隨機向量 X\vec{X} 的各個隨機變量去相關性, 然後利用獨立隨機變量概率密度函數之間的關係得出的, 亦既是定理1所表述的內容. 那具體地, 線性變化 Z=B1(Xμ)\vec{Z} = B^{-1}(\vec{X} - \vec{\mu}) 是怎麼去相關性使隨機向量 X\vec{X} 的各個隨機變量彼此獨立的呢? 我們不妨在二維平面上, 再次由定理1和(15)出發來看看這個去相關性的過程.

由定理1我們有
在這裏插入圖片描述
再由(15)(17)可得
在這裏插入圖片描述
由(18)我們已經可以非常明顯地看出線性變換Z=B1(Xμ)\vec{Z} = B^{-1}(\vec{X} - \vec{\mu})的具體操作了
在這裏插入圖片描述
我們先對標準正交基進行拉伸, 橫軸和縱軸分別拉伸 1λ1,1λ2\frac{1}{\sqrt{\lambda_1}}, \frac{1}{\sqrt{\lambda_2}} 倍, 再使用酉矩陣 QQ 對拉伸後的正交基進行旋轉, 最後將去均值的隨機向量 Xμ\vec{X} - \vec{\mu}在新的正交基上進行投影, 從而使完成線性變換Z=B1(Xμ)\vec{Z} = B^{-1}(\vec{X} - \vec{\mu}) 後的隨機變量在新的正交基上彼此獨立. 值得注意的是, 如果隨機向量X\vec{X}本來就是獨立隨機變量組成的, 此時其協方差矩陣是一個對角矩陣, 則酉矩陣QQ 是一個單位矩陣I\mathbf{I} , 此線性變換中只有拉伸而沒有旋轉.
在這裏插入圖片描述

四、總結

本文從多元標準高斯分佈出發, 闡述瞭如何通過線性變換, 將任意的服從多元高斯分佈的隨機向量去相關性, 並求出其聯合概率密度函數的過程, 最後給出了線性變換的具體過程闡述. 多元高斯分佈是許多其他理論工具的基礎, 掌握它是進行其他相關理論研究的關鍵.

五、二維高斯分佈

我們已經知道多維高斯分佈的概率密度爲:
在這裏插入圖片描述
協方差矩陣是一個對稱矩陣,決定了多維高斯分佈的形狀。

要點:

  • 協方差矩陣的對角線元素爲 xxyy 軸的方差
  • 反斜對角線上的兩個值爲協方差,表明 xxyy的線性相關程度(正值時: xx增大, yy也隨之增大;負值時: xx增大, yy隨之減小)

以下以二維高斯分佈爲例,顯示了不同協方差矩陣時的概率分佈。
在這裏插入圖片描述

參考文獻

【1】多元高斯分佈完全解析 轉載自1
【2】協方差矩陣與二維高斯分佈

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章