一些前置知識,期望、方差、協方差概念及其相關公式參見
定義
皮爾遜相關係數,簡稱相關係數,嚴格來說,應該稱爲“線性相關係數”。這是因爲,相關係數只是刻畫了X,Y之間的“線性”關係程度。換句話說,假如X與Y有其它的函數關係但非線性關係時,用相關係數來衡量是不合理的。
相關係數定義爲:
ρX,Y=σXσYcov(X,Y)=σXσYE((X−μX)(Y−μY))=E(X2)−E2(X)E(Y2)−E2(Y)E(XY)−E(X)E(Y)
cov爲協方差,σ爲標準差。
相關係數有以下性質:
- 若X,Y相互獨立,則 ρX,Y=0,因爲獨立情況下 E(XY)=E(X)E(Y),但 ρX,Y=0 不能推出X,Y相互獨立,等於0的情況,我們稱X,Y不相關。進一步引申,即獨立則不相關,反過來不一定。
- 第一條的例外:當(X,Y)爲二維正態時,由相關係數=0能推出X,Y獨立
- −1≤ρX,Y≤1,小於0時爲負相關,大於0時爲正相關,爲當且僅當X,Y有嚴格線性關係時取等
應用
實際應用中,通常用r表示相關係數,假如我們有一組樣本點 (x,y),怎麼計算它們的相關係數?
用基於樣本對均值、總體協方差和方差進行估計,也就是:
cov(X,Y)=n−1∑ni=1(Xi−Xˉ)(Yi−Yˉ)σX2=n−11i=1∑n(Xi−μX)2 (之所以除以n-1而不是除以n,是因爲我們是用樣本去估計總體,除n-1纔是統計學上的“無偏估計”,這樣能使我們以較小的樣本集更好的逼近總體的標準差 )
上述兩式代入定義中得,
r=∑i=1n(Xi−Xˉ)2∑i=1n(Yi−Yˉ)2∑i=1n(Xi−Xˉ)(Yi−Yˉ)
當計算出相關係數後,可以通過以下取值範圍判斷變量的相關強度:
|r| |
相關強度 |
0.8-1.0 |
極強相關 |
0.6-0.8 |
強相關 |
0.4-0.6 |
中等程度相關 |
0.2-0.4 |
弱相關 |
0.0-0.2 |
極弱相關或無相關 |
理解
協方差的定義是從方差而來的,X的方差是(X−μX)與(X−μX)的乘積的期望,如今把一個(X−μX)換爲(Y−μY),其形式接近方差,又有X,Y二者的參與,由此得出協方差的名稱。
從功能上來說,其實協方差(Covariance)就足以刻畫兩個變量的相關關係。
解釋參見:
但是協方差是帶有“單位”的,它和X,Y的數值有關,假如X的數值量級整體都遠遠大於Y,那麼就會使得計算出來的協方差很大,它的值是不可比較的,並不能統一地度量兩個隨機變量的關聯程度。所以我們需要將其無量綱化,也就是去除數值量級差異的影響,於是就引入了皮爾遜相關係數,其在協方差的基礎上除以了兩個隨機變量的標準差,這樣使得計算出來的值介於-1和1之間,相互之間是可比較的,不用受單位的影響。
如果對你有幫助,請點個贊:-D