數學建模——相關係數(2)——假設檢驗

一、引述

在上一篇文章中,我們已經介紹瞭如何求解Person相關係數。那麼如何解釋相關係數的大小呢?事實上,如果我們只是通過相關係數大小去判斷兩個變量之間的相關性,這種做法是不嚴謹的。因爲對相關係數的解釋依賴於具體的應用背景和目的的。因此,相比較於相關係數的大小,我們往往更關注於顯著性。而求解顯著性,則需要假設檢驗方法。

二、假設檢驗

請仔細閱覽下一部分。

三、對皮爾遜係數進行假設檢驗

1. 步驟

  1. 提出原假設(零假設)H0和備擇假設H1(兩者假設是截然相反的)
    假設我們得到了一個皮爾遜相關係數r,我們想檢驗它是否顯著的異於0,那麼我們可以這樣設定原假設和備擇假設:H0:r = 0,H1:r ≠ 0。(通常來說,備擇假設纔是研究者最想知道的)(r ≠ 0,是一個雙側檢驗,因爲其可以分爲兩個單側檢驗:r > 0, r < 0

  2. 在原假設成立的條件下,利用我們要檢驗的量構造出一個符合某一分佈的統計量。(統計量相當於我們要檢驗的量的一個函數,裏面不能有其他的隨機變量)(分佈一般有四種:標準正態分佈、t 分佈、卡方分佈、F分佈)
    對於皮爾遜相關係數r而言,在滿足一定條件下,我們可以構造統計量(式子中n爲已知的樣本量):
    皮爾遜相關係數r構造的統計量
    可以證明,t是服從自由度爲n-2t分佈。

  3. 將我們要檢驗的r值代入該統計量中,可以得到一個特定的值(檢驗值,在之後的步驟中我們要看這個檢驗值是放到)
    例如,我們計算出的相關係數r = 0.5,樣本量n = 30,那麼我們可以求出 t = 3.05505

  4. 由於我們知道統計量的分佈情況,因此我們可以畫出該分佈的概率密度函數pdf,並給定一個置信水平α(願意接受H0成立的概率),根據這個置信水平查表找到臨界值,並畫出檢驗統計量的接受域和拒絕域
    緊接之前的例子,我們知道上述統計量服從自由度爲28(30-2)的t分佈,其概率密度函數圖形如下:
    在這裏插入圖片描述使用matlab繪製該概率密度函數pdf的代碼如下:

     x = -4:0.1:4; % x從-4取到4間隔爲0.1
     y = tpdf(x,28); % 第一個參數爲給定的一組數據,第二個參數是自由度
     plot(x,y,'-') % 繪製圖線
     grid on  % 在畫出的圖上加上網格線
    

    常見的置信水平有三個:90%,95%和99%,其中95%是最爲常用的
    t分佈表
    通過查t分佈表,我們可知當自由度爲28,置信水平爲95%時,臨界值爲2.048,因此我們可以做出如下的接受域和拒絕域。
    [因爲我們採用的是雙側檢驗,因爲置信水平爲0.95,則拒絕域之和爲0.05,即,一側爲0.025。所以,其對應的t分佈表中的tp = 0.975,於是再根據自由度28,即可鎖定臨界值2.048]
    接受域與拒絕域

  5. 看我們在第三步得到的檢驗值是落在了拒絕域還是接受域,並下結論。
    在第三步中,我們得到的檢驗值 t = 3.05505 > 2.048*,因此我們可以下結論:在95%的置信水平上,我們拒絕原假設H0:r = 0,因此,r是顯著的不爲0的。

2.更好用的方法:p值判斷法

  1. 何爲p值?
    p值是一種概率,是拒絕原假設的最小顯著性水平,是用於確定是否應該拒絕原假設的另一種方法。
  2. 如何使用?
    在上述步驟的第三步中,我們得到了一個檢驗值 t* = 3.05505,根據該值,我們計算其對應的p值(即,(1-紅色方塊區域左側的概率),但是在本例中,由於採用的是雙側檢驗,因此應當×2,即(1 - 紅色方塊區域左側的概率)×2)。
    matlab代碼對應如下:
    disp('該檢驗值對應的p值爲:')
    disp((1-tcdf(3.055,28)) * 2) 
    % 雙側檢驗的p值要乘以2,tcdf是t分佈的累計概率密度函數
    % tcdf(3.055,28)指x=3.055且自由度爲28的累積密度函數
    
    最後我們計算得到的p值爲0.0049
    p值的意義:
    	p < 0.01,說明在99%的置信水平上拒絕原假設;
    	p < 0.05,說明在95%的置信水平上拒絕原假設;
    	p < 0.10,說明在90%的置信水平上拒絕原假設;
    同理,可得:
    	p > 0.01,說明在99%的置信水平無法拒絕原假設;
    	p > 0.05,說明在95%的置信水平無法拒絕原假設;
    	p > 0.10,說明在90%的置信水平無法拒絕原假設。
    
    ∵ p = 0.0049 < 0.05
    本例中,在95%的置信水平上拒絕原假設,即皮爾遜相關係數顯著的異於0.

注:在論文寫作中我們通常使用以下方式確定該相關係數的顯著性

相關係數 " * "的意義
0.5 不顯著,即無法拒絕原假設
0.5* 在90%的置信水平上顯著,即在90%的置信水平上拒絕原假設
0.5** 在95%的置信水平上顯著,即在95%的置信水平上拒絕原假設
0.5*** 在99%的置信水平上顯著,即在99%的置信水平上拒絕原假設

三、皮爾遜相關係數檢驗的條件

  1. 實驗數據通常是成對的來自於正態分佈的總體。
    因爲我們在求出皮爾遜相關係數以後,通常還會用t檢驗之類的方法進行皮爾遜相關係數檢驗,而t檢驗是基於數據呈正態分佈的假設的
  2. 實驗數據之間的差距不能太大。皮爾遜相關係數受異常值影響較大(詳情見第一節圖)。
  3. 每組樣本之間是獨立抽樣的。構造t統計量時需要用到。

相關參考資料:百度百科、百度文庫、清風數學建模

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章