程序員的自我修養之數學基礎12:協方差、相關係數與協方差矩陣

1. 協方差

之前,我們講了隨機變量的期望和方差,但是這兩個都只用於描述單一的變量,也就是一維變量(可以理解爲數軸上的數據點)。那麼對於多維變量(平面或空間內的數據點),如何描述變量和變量之間的關係呢?比如說,對於每個學生的各科成績,我們想知道,數學成績和物理成績是不是存在聯繫?體育好的同學是不是英語不好?協方差就是這樣一種用來度量兩個隨機變量關係的統計量。

期望值分別爲E(X)和E(Y)的隨機變量X和Y的協方差定義爲:

Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}

注意:上面的協方差定義中,E(X)和E(Y)是數學期望,對於確定的隨機變量是個定值。

進一步化簡,可得:

很容易看出,兩個變量的協方差有以下計算性質:

  • Cov(X,Y)=Cov(Y,X)
  • Cov(aX,bY)=ab Cov(X,Y),其中a、b均爲常數
  • Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)

那麼如何利用協方差判斷變量的相關性呢?

  • 當 cov(X, Y)>0時,表明 X與Y正相關;
  • 當 cov(X, Y)<0時,表明X與Y負相關;
  • 當 cov(X, Y)=0時,表明X與Y不相關,也就是X、Y獨立。

下面我們通過圖像更直觀地理解一下上面這段話。

假設我們拿到了一組(X, Y)的樣本,如下圖1-A所示。{X-E(X)}和{Y-E(Y)}就是令這組樣本中的X、Y各自減掉自己的期望值,得到一組新樣本。顯然這組新樣本在保持原有的數據分佈的前提下,其均值就變成了(0,0),也就是說,這組新樣本的數據點分佈在原點周圍,如圖1-B所示。接下來,我們再把圖1-B中的樣本數據點中的每一個點的座標相乘,也就是得到[(X-E(X)][(Y-E(Y)],令平面空間上的二維樣本退化爲了座標軸上的一維樣本。在這個過程中,一三象限的點會分佈到數軸的正半軸,二四象限的點會分佈到數軸的負半部分,如下圖1-c所示。而根據剛剛的公式,XY的協方差,其實就是圖1-C所示的樣本的期望值。從直觀上看,對於圖1-C所示的數據,其均值接近於0,也就是協方差值約爲0,因此X和Y是幾乎完全不相關,這一點從圖1-A的數據點分佈上也可以看出來。

下面再看一下X和Y正相關的例子,也就是說,X越大Y也越大, X越小Y也越小,

也即在某次我們同時對xy採樣時,當x的採樣值>x的均值時,y的樣本也一般是>y的均值。經過同樣的步驟之後,我們可以看到得到的一維樣本如圖2-C所示。顯然,大部分數據點均落在x軸的正半軸,樣本的期望顯然爲正值,也就是說樣本的協方差爲正,XY正相關。

在這裏再補充一個我覺得很棒的解釋,大家可以和前面的解釋對比着理解。主要把握的就是,落在(1)和(3)區域裏的數據點最終會反映在一維座標軸的正半軸,而處於(2)和(4)區域裏的數據點會落在一維座標軸的負半軸,一維座標軸上數據點的期望值,即爲我們求得協方差。

接下來,我們在把目光投向協方差的計算公式上:

Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}

在樣本數目較大(無窮多時),根據大數定理,樣本的均值會無限接近於期望值。因此,有:

\bg_white Cov(X,Y)=\sum_{i=0}^{n}\frac{[X_i-E(X)][Y_i-E(Y)]}{n-1}

結合方差的公式:

D(X)=\sum_{i=0}^{n}\frac{[X_i-E(X)]^2}{n-1}

可以推出隨機變量和的方差與協方差的關係:

D(X+Y)=D(X)+D(Y)+2Cov(X,Y)

講到這裏,我們可以想想造成協方差較大的原因——除了X和Y之間的相關性之外,還可能是由於X、Y的樣本偏離E(X)和E(Y)的程度較大,也就是說,X、Y各自的方差比較大。也就是說:

1)方差一定的情況下,兩個變量的相關性越大,協方差的絕對值越大。

2)相關性一定的情況下,變量的方差越大,協方差的絕對值越大。

那反過來說,我們想僅通過協方差看兩個變量的相關程度是不合理的,還需要在計算協方差的基礎上,把方差帶來的影響剔除掉。剔除的辦法也很簡單,就是用協方差除以變量的標準差,所得到的結果就是我們所說的相關係數,也叫標準協方差

相關係數\rho _{XY}的定義爲:\rho _{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}

相關係數刻畫了變量間“線性相關”的程度。對於相關係數\rho _{XY},有:

  • \left | \rho _{XY}\right |\leqslant 1
  • \left | \rho _{XY}\right |= 1,則從在常數a,b使得P \begin{Bmatrix} Y=aX+b \end{Bmatrix}{}=1,也就是說X、Y線性相關。
  • \left | \rho _{XY}\right |=0\Leftrightarrow X、Y線性不相關。
  • 若X、Y獨立,\left | \rho _{XY}\right |=0。在這裏需要注意,獨立一定不相關,不相關不一定獨立

2. 協方差矩陣

協方差只能處理二維問題,那麼維數多了,我們需要考慮兩兩變量間的因素,計算多個協方差。因此,我們採用矩陣的形式來組織這些數據,這個矩陣就是我們通常說的協方差矩陣

對於二維的數據集,即只有X、Y兩個變量,對應的協方差矩陣爲:

\begin{bmatrix} Cov(X,X) & Cov(X,Y) \\ Cov(Y,X) & Cov(Y,Y) \end{bmatrix}

對於一個三維的數據集,假設一個數據集中有\begin{Bmatrix} x&y &z \end{Bmatrix}}三個維度,也就是三個變量,那對應的協方差矩陣爲:

更擴展來說,對於n維數據集\boldsymbol{X}=\begin{Bmatrix} X_1,X_2,...,X_n \end{Bmatrix}^T,對應的協方差矩陣爲:

\begin{bmatrix} \sigma _{11} & \sigma _{12} & ...&\sigma _{1n} \\ \sigma _{21} &\sigma _{22} &... &\sigma _{2n} \\ ... &... &... &... \\ \sigma _{n1} & ... & ... & \sigma _{nn} \end{bmatrix},其中\sigma _{ij}=Cov(X_i,X_j)

因爲Cov(X,Y)=Cov(Y,X),所以,協方差矩陣是一個實對稱矩陣,其對角線上是各個變量的方差

既然是一個實對稱矩陣,那麼它的一個重要特性就是可正交對角化。聯繫之學過的特徵值和特徵向量,我們可以知道,對於協方差矩陣\boldsymbol{\Sigma},可以表示爲:

\boldsymbol{\Sigma v}=\lambda \boldsymbol{v}

其中,\boldsymbol{ v} 是\boldsymbol{\Sigma}的特徵向量,\lambda是其對應的特徵值。

當協方差矩陣是對角矩陣時,各個變量之間彼此的協方差均爲0,也就是變量之間是不相關的,此時,特徵值\lambda 等於各個維度上的方差,也就是各個變量方差。如下圖所示。

這裏寫圖片描述

如果協方差矩陣不是對角矩陣,也就是說,變量之間存在相關關係,此時,特徵值仍然代表數據最大傳播方向上方差的大小,也就是各個變量的方差。但是特徵向量並不是平行於軸的。

這裏寫圖片描述

 

參考:

https://cloud.tencent.com/developer/article/1342761 

https://blog.csdn.net/u011426016/article/details/82780503

https://blog.csdn.net/wuhzossibility/article/details/8087863

https://www.cnblogs.com/nsnow/p/4758202.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章