理解皮爾遜相關係數(Pearson Correlation Coefficient)

要理解Pearson相關係數,首先要理解協方差(Covariance),協方差是一個反映兩個隨機變量相關程度的指標,如果一個變量跟隨着另一個變量同時變大或者變小,那麼這兩個變量的協方差就是正值,反之相反,公式如下:

cov(x,y)=i=1n(xixμ)(yiyμ)n1

Pearson相關係數公式如下:
px,y=cor(x,y)=cov(x,y)δxδy=E[(xxμ)(yyμ)]δxδy

由公式可知,Pearson相關係數是用協方差除以兩個變量的標準差得到的,雖然協方差能反映兩個隨機變量的相關程度(協方差大於0的時候表示兩者正相關,小於0的時候表示兩者負相關),但是協方差值的大小並不能很好地度量兩個隨機變量的關聯程度,例如,現在二維空間中分佈着一些數據,我們想知道數據點座標X軸和Y軸的相關程度,如果X與Y的相關程度較小但是數據分佈的比較離散,這樣會導致求出的協方差值較大,用這個值來度量相關程度是不合理的。
爲了更好的度量兩個隨機變量的相關程度,引入了Pearson相關係數,其在協方差的基礎上除以了兩個隨機變量的標準δ2=i=1n(xixμ)n ,容易得出,pearson是一個介於-1和1之間的值,當兩個變量的線性關係增強時,相關係數趨於1或-1;當一個變量增大,另一個變量也增大時,表明它們之間是正相關的,相關係數大於0;如果一個變量增大,另一個變量卻減小,表明它們之間是負相關的,相關係數小於0;如果相關係數等於0,表明它們之間不存在線性相關關係。《數據挖掘導論》給出了一個很好的圖來說明:
這裏寫圖片描述
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章