皮爾遜相關係數與p值

1.皮爾遜相關係數

假設有兩個變量x,y
則兩者之間的皮爾遜相關係數爲:
在這裏插入圖片描述
皮爾遜相關係數衡量的是兩者之間的相關關係,取值範圍爲[-1,1],取值爲正表示正相關,取值爲負表示是負相關,同時,皮爾遜相關係數衡量的是兩個變量之間的線性關係,如下圖,橫軸與縱軸變量有明顯的線性關係,
在這裏插入圖片描述
由公式計算出來相關係數爲 0.9836,高度相關性;
而當兩個變量之間有相關關係但是不是線性時,用皮爾遜相關係數衡量則會出現較大的偏差 ,比如
下圖,設橫軸爲x, 縱軸爲y,且 y = x*x在這裏插入圖片描述
兩變量之間有非線性的相關性,但如果此時用皮爾遜相關係數衡量,則相關係數爲0
所以,非線性相關關係不能用皮爾遜相關係數衡量
通常情況下通過以下取值範圍判斷變量的相關強度:
相關係數 (均取絕對值後):
0.8-1.0 極強相關
0.6-0.8 強相關
0.4-0.6 中等程度相關
0.2-0.4 弱相關
0.0-0.2 極弱相關或無相關

2.顯著性水平P值

討論兩變量是否相關必須討論顯著性水平,不談P值之談相關係數大小是無意義的,兩者之間的相關關係可能只是偶然因素引起的,所以我們要對兩個變量之間的相關關係的顯著性水平進行判斷;

採用假設檢驗的方法:
原假設H0: R=0 兩變量之間不存在線性關聯
備擇假設H1: R不等於0,兩變量之間存在線性關聯

根據假設檢驗方法,在零假設成立的條件下,即假設兩變量不存在相關性的前提下,計算出兩變量不存在相關性的概率值(P值),如果這個P值很小,說明兩變量不存在相關性的概率很小,我們就可以拒絕原假設,接受備擇假設,那麼這裏我們就需要一個閾值

通常以5%爲閾值(這裏的閾值也稱爲顯著水平),如果 p<0.05,則說明可以拒絕原假設。接受備擇假設,即兩變量之間存在顯著的線性關聯

所以當p值遠大於 0.05時,即使相關係數很大,我們也不能說兩變量之間存在明顯相關性;而且一般要先在p值滿足要求的前提下再去談 相關係數的大小

本人的粗淺認識,若有錯誤,勞煩指正.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章