【統計學】皮爾森相關係數公式理解

皮爾森相關係數公式

在這裏插入圖片描述
文字描述:相關性係數(Px,y)等於X,Y之間的協方差cov(X,Y)除以它們各自標準差的乘積(σX,σY)

1. 先解釋分子,爲什麼用協方差?

因爲我們想要研究的兩組數據的相關性,兩個組數據如果相關的的話,要滿足的最基本的條件:變化趨勢相似(例如正相關或負相關)

而協方差就可以告訴我們這一點,協方差的公式爲:
在這裏插入圖片描述
文字描述爲:如果有X,Y兩個變量,每個時刻的“X值與其均值之差”乘以“Y值與其均值之差”得到一個乘積,再對這每時刻的乘積求和並求出均值

如果X,Y的變化趨勢是有規律的話,例如正相關,那麼在X低於均值的時候,Y大概率也會低於均值;X高於均值的時候,Y大概率也會高於均值,所以兩者相乘後的乘積大概率是正數(大量正數+少量負數),所以數學期望的話也是個正數,所以最後正相關的符號是正的
在這裏插入圖片描述
例如負相關,那麼在X低於均值的時候,Y大概率也會高於均值;X高於均值的時候,Y大概率也會低於均值,所以兩者相乘後的乘積大概率是負數,所以數學期望的話也是個負數(大量負數+少量正數),所以最後負相關的符號是負的
在這裏插入圖片描述
如果X,Y的變化趨勢是沒有規律的,在X低於均值的時候,Y可能低於均值也可能高於均值,所以他們乘後,有一部分乘積的結果爲正,一部分爲負,所以求數學期望的時候相互抵消了(正數和負數的數量相當),所以最後不相關的數據結果會很接近0;
在這裏插入圖片描述

2. 接下來解釋分母,爲什麼用標準差的乘積

協方差除以標準差其實就是做一個歸一化的操作,他的意義在於:消除量綱的影響,單純反應兩個變量每單位變化時的相似程度

爲什麼量綱會有影響呢?例如下圖中,情況一和情況二的紅線曲線變化幅度看起來差很多,但是實際上,兩根紅線的差別只是在於單位差了10000倍,但是綠線的變化對他們的影響其實是一樣的,當綠線在最低峯的時候,紅線也在最低峯;當綠線在最高峯的時候,紅線也在最高峯;兩種情況的相關性應當是一樣的(相關係數只關注紅線和綠線之間互相影響的程度)
在這裏插入圖片描述
如果只考慮協方差的話,情況一的協方差會比情況二大很多,我們想要研究的是變化幅度,不希望量綱的不同會造成對結果的影響,因此需要一個東西來消除量綱的影響

哪爲什麼標準差可以用來消除量綱的影響呢?
標準差的公式爲
在這裏插入圖片描述
文字描述:求出某一個樣本和均值的偏差,因爲偏差可能爲正也可能爲負,所以平方一下,然後把所以偏差的平方都加起來得到偏差平方的數學期望,然後再開方把偏差拉回原來的量級

(其實平方是爲了解決正負號的問題,如果一組偏差很大的數據,一時爲很大的正數,一時爲很大的負數,兩個直接相加的話,偏差的期望就會變成0,就變成了這組數據沒有偏差,這是我們不希望看到的,所以需要加上平方。而開方是爲了消除平方的影響,把偏差的數學期望拉回原來的量級)

所以標準差表示的就是一組數據內部的偏離程度,也可以理解爲變化幅度。這個變化幅度可能很大,也可能很小。

現在我們希望相關係數這個指標,能夠消除量綱的影響,而量綱和變化幅度的意義其實是一樣的。

例如,情況一中,X的單位是1千克,Y的單位是1元,Y每增加1元,X就增加1千克
情況二中,X的單位是0.1克,Y的單位是1元,Y每增加1元,X就增加0.1克
兩個X的單位相差10000倍,導致他們的變化幅度也是相差10000倍(分別爲1千克/元與0.1克/元)

因此協方差除以標準差的話,就變成了單位變化時的協方差,消除了量綱的影響(也可以說是消除了變化幅度的影響)

總結

以上就是皮爾森相關係數公式的理解,簡單地總結就是:

  1. 分子的協方差用來得到相關性
  2. 分母的標準差用來消除量綱(或變化幅度)的影響

公式和圖例來源,這篇文章講得很好:如何通俗易懂地解釋「協方差」與「相關係數」的概念?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章