[線性相關] 皮爾森相關係數的計算及假設檢驗

皮爾森相關係數,又稱積差相關係數、積矩相關係數,可以看做將兩組數據首先做Z分數處理之後, 然後兩組數據的乘積和除以樣本數Z分數一般代表正態分佈中, 數據偏離中心點的距離.等於變量減掉平均數再除以標準差。按照大學的線性數學水平來理解, 它比較複雜一點,可以看做是兩組數據的向量夾角的餘弦。


從以上解釋,也可以理解皮爾遜相關的約束條件:

1、兩個變量間有線性關係

2、變量是連續變量

3、兩個變量的總體均符合正態分佈:取大樣本進行正態分佈非參數檢驗

4、兩變量獨立


在實踐統計中,一般只輸出兩個係數,一個是相關係數,也就是計算出來的相關係數大小,在-1到1之間;另一個是獨立樣本檢驗係數,用來檢驗樣本一致性。

 

現舉例說明計算相關係數的一般步驟:

  例9.1 測定15名健康成人血液的一般凝血酶濃度(單位/毫升)及血液的凝固時間(秒),測定結果記錄於表9.1第(2)、(3)欄,問血凝時間與凝血酶濃度間有無相關?

  1.繪圖,將表9.1第(2)、(3)欄各對數據繪成散點圖。

  2.求出∑X、∑Y、∑X2、∑Y2、∑XY,見表9.1下方。

  3,代入公式,求出r值。


表9.1 相關係數計算表

受試者號
(1)

凝血酶濃度(單位/毫升)X
(2)

凝血時間(秒)Y
(3)

1

1.1

14

2

1.2

13

3

1.0

15

4

0.9

15

5

1.2

13

6

1.1

14

7

0.9

16

8

0.9

15

9

1.0

14

10

0.9

16

11

1.1

15

12

0.9

16

13

1.1

14

14

1.0

15

15

0.8

17

合計

15.1

222

                                                                                                                                       

                                                                                                                                        ∑X=15.1 ∑Y=222

∑XY=221.7 
 ∑X2=15.41∑Y2=3304    

  本例的相關係數r=-0.9070,負值表示血凝時間隨凝血酶濃度的增高而縮短;絕對值∣-0.9070∣表示這一關係的密切程度。至於此相關係數是否顯著,則要經過下面的分析。

  (二)相關係數的假設檢驗

  雖然樣本相關係數r可作爲總體相關係數ρ的估計值,但從相關係數ρ=0的總體中抽出的樣本,計算其相關係數r,因爲有抽樣誤差,故不一定是0,要判斷不等於0的r值是來自ρ=0的總體還是來自ρ≠0的總體,必須進行顯著性檢驗。檢驗假設是ρ=0,r與0的差別是否顯著要按該樣本來自ρ=0的總體概率而定。如果從相關係數ρ=0的總體中取得某r值的概率P>0.05,我們就接受假設,認爲此r值的很可能是從此總體中取得的。因此判斷兩變量間無顯著關係;如果取得r值的概率P≤0.05或P≤0.01,我們就在α=0.05或α=0.01水準上拒絕檢驗假設,認爲該r值不是來自ρ=0的總體,而是來自ρ≠0的另一個總體,因此就判斷兩變量間有顯著關係。

  由於來自ρ-0的總體的所有樣本相關係數呈對稱分佈,故r的顯著性可用t檢驗來進行。本例r=-0.9070,進行t檢驗的步驟爲:

  1.建立檢驗假設,H0:ρ=0,H1:ρ≠0,α=0.01

  2.計算相關係數的r的t值:

  (9.3)

  3.查t值表作結論

  ν=n-2=15-2=13

  根據專業知識知道凝血酶濃度與凝血時間之間不會呈正相關,故宜用單側界限,查t值表得

  t0.01,13=2.650

  今∣tr∣>t0.01,13,P<0.01,在α=0.01水準上拒絕H0,接受H1,故可認爲凝血時間的長短與血液中酶濃度有負相關。

  爲簡化tr檢驗的計算過程,數理統計工作者根據t分配表,已把不同自由度時r的臨界值求出,並列成相關係數界值表(見附表11)。故求相關係數後,只需查表就可知道該r值是否顯著,而不必再計算tr值。

  r的顯著性界限爲

  |r|<r0.05, P>0.05 相關不顯著

        r0.05≤|r|<r0.01,0.05≥P>0.01 在α=0.05水準上相關顯著

  |r|≥r0.01,P≤0.01 在α=0.01水準上相關顯著

  例9.1的ν =15-2=13,查附表11中P(1)的界值,得:

  r0.05,13=0.441     r0.01,13=0.592

  現r=-0.9070,∣r∣>r0.01,13,P<0.01,按α=0.01水準,拒絕HO,接受H1。認爲ρ≠0,說明凝血時間的長短與血液中凝血酶濃度有負相關。結論與計算所得一致。

  相關係數的顯著性與自由度的大小有關,如n=3,ν=1時,雖r=-0.9070,卻爲不顯著;若ν=400時,即使r=0.1000,亦爲顯著。因此不能只看r的值,不考慮ν就下結論。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章