相關係數——皮爾遜相關係數的公式及其理解

一些前置知識,期望、方差、協方差概念及其相關公式參見

定義

皮爾遜相關係數,簡稱相關係數,嚴格來說,應該稱爲“線性相關係數”。這是因爲,相關係數只是刻畫了X,Y之間的“線性”關係程度。換句話說,假如X與Y有其它的函數關係但非線性關係時,用相關係數來衡量是不合理的。
相關係數定義爲:
ρX,Y=cov(X,Y)σXσY=E((XμX)(YμY))σXσY=E(XY)E(X)E(Y)E(X2)E2(X)E(Y2)E2(Y)\rho_{X, Y}=\frac{\operatorname{cov}(X, Y)}{\sigma_{X} \sigma_{Y}}=\frac{E\left(\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right)}{\sigma_{X} \sigma_{Y}}=\frac{E(X Y)-E(X) E(Y)}{\sqrt{E\left(X^{2}\right)-E^{2}(X)} \sqrt{E\left(Y^{2}\right)-E^{2}(Y)}}
covcov爲協方差,σ\sigma爲標準差。

相關係數有以下性質:

  1. XYX,Y相互獨立,則 ρX,Y=0\rho_{X, Y}=0,因爲獨立情況下 E(XY)=E(X)E(Y)E(X Y)=E(X) E(Y),但 ρX,Y=0\rho_{X, Y}=0 不能推出X,YX,Y相互獨立,等於0的情況,我們稱X,YX,Y不相關。進一步引申,即獨立則不相關,反過來不一定。
  2. 第一條的例外:當(X,Y)(X,Y)爲二維正態時,由相關係數=0能推出XYX,Y獨立
  3. 1ρX,Y1-1 \leq \rho_{X, Y} \leq 1,小於0時爲負相關,大於0時爲正相關,爲當且僅當X,YX,Y有嚴格線性關係時取等

應用

實際應用中,通常用rr表示相關係數,假如我們有一組樣本點 (x,y),怎麼計算它們的相關係數?
用基於樣本對均值、總體協方差和方差進行估計,也就是:
cov(X,Y)=ni=1(XiXˉ)(YiYˉ)n1\operatorname{cov}(X, Y)=\frac{\sum_{n}^{i=1}\left(X_{i}-\bar{X}\right)\left(Y_{i}-\bar{Y}\right)}{n-1}σX2=1n1i=1n(XiμX)2\sigma_{X}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}\left(X_{i}-\mu_{X}\right)^{2} (之所以除以n-1而不是除以n,是因爲我們是用樣本去估計總體,除n-1纔是統計學上的“無偏估計”,這樣能使我們以較小的樣本集更好的逼近總體的標準差 )

上述兩式代入定義中得,
r=i=1n(XiXˉ)(YiYˉ)i=1n(XiXˉ)2i=1n(YiYˉ)2r=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)\left(Y_{i}-\bar{Y}\right)}{\sqrt{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}} \sqrt{\sum_{i=1}^{n}\left(Y_{i}-\bar{Y}\right)^{2}}}

當計算出相關係數後,可以通過以下取值範圍判斷變量的相關強度:

|r| 相關強度
0.8-1.0 極強相關
0.6-0.8 強相關
0.4-0.6 中等程度相關
0.2-0.4 弱相關
0.0-0.2 極弱相關或無相關

理解

協方差的定義是從方差而來的,XX的方差是(XμX)(X-\mu_{X})(XμX)(X-\mu_{X})的乘積的期望,如今把一個(XμX)(X-\mu_{X})換爲(YμY)(Y-\mu_{Y}),其形式接近方差,又有XYX,Y二者的參與,由此得出協方差的名稱。

從功能上來說,其實協方差(Covariance)就足以刻畫兩個變量的相關關係。
解釋參見:

但是協方差是帶有“單位”的,它和X,YX,Y的數值有關,假如XX的數值量級整體都遠遠大於YY,那麼就會使得計算出來的協方差很大,它的值是不可比較的,並不能統一地度量兩個隨機變量的關聯程度。所以我們需要將其無量綱化,也就是去除數值量級差異的影響,於是就引入了皮爾遜相關係數,其在協方差的基礎上除以了兩個隨機變量的標準差,這樣使得計算出來的值介於-1和1之間,相互之間是可比較的,不用受單位的影響。

如果對你有幫助,請點個贊:-D

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章