數學建模——相關係數(1)——皮爾遜相關係數(Person)

一、 相關係數專欄簡介

  • 本專欄內容設計講解兩種最爲常用的相關係數:皮爾遜Person相關係數斯皮爾曼Spearman等級相關係數
  • 相關係數可用來衡量兩個變量之間的相關性的大小,根據數據滿足的不同條件,我們要選擇不同的相關係數進行計算和分析。
  • 該部分是建模論文中最容易用錯的方法。
  • 關於如何使用Matlab、Spss、Excel等工具解決相關係數問題,將會在後面的部分單獨寫一篇博客進行講解。
  • 本專欄注重的方面是如何使用相關方法去解決對應的數學建模問題,而對於原理部分的講解不會特別深入。

二、相關的基本數學概念

總體和樣本

  • 總體:所要考察對象的全部個體
  • 樣本:從總體中所抽取的一部分個體叫做總體的一個樣本。
  • 我們可以通過計算樣本的統計量來估計總體的統計量
    • 例如:使用樣本均值、樣本標準差來估計總體的的均值(平均水平)和總體的標準差(偏離程度)

三、皮爾遜相關係數(Person)

1. 協方差(用於引出相關係數的定義)

均值與協方差

  • 協方差的大小表示的是兩個變量的總體的誤差。
  • 協方差用於度量各個維度偏離其均值的程度。
  • **若協方差的值爲正值,則說明兩者是正相關的;若爲負值,則說明兩者是負相關的;若爲0,則就是統計上說的“相互獨立”。**即,協方差爲0時,兩者獨立。協方差的絕對值越大,兩者對彼此的影響越大,反之,越小
  • 由協方差可以引出相關係數的定義。

參考資料鏈接:https://blog.csdn.net/GoodShot/article/details/79940438

  • 我們觀察協方差的公式,可以發現,X,Y(即,兩個變量)的量綱會影響協方差的大小,因此並不適合比較大小,由此引出了相關係數。

2. 總體皮爾遜Person相關係數

總體person相關係數

  • 觀察總體Person相關係數的公式:我們發現皮爾遜相關係數可以看成消除了兩個變量量綱影響,即將X和Y標準化後的協方差。 因此,我們可以使用皮爾遜相關係數來衡量兩個變量線性相關的程度。

3. 樣本皮爾遜Person相關係數

樣本Person相關係數

4.皮爾遜相關係數的使用範圍

  • 兩個變量之間是線性關係,且是連續數據。
  • 兩個變量的總體是正態分佈,或接近正態的單峯分佈。
  • 兩個變量的觀測值是成對的,且每對觀測值之間相互獨立

四、需要注意的地方

1. 相關係數只是用來衡量兩個變量線性相關程度的指標
來自維基百科的定義

2. 通過繪製散點圖可以很容易地判定兩個變量x和y之間的相關性
在這裏插入圖片描述

圖片來源[美]作者Pang‐Ning Tan 《數據挖掘導論》

3. 非線性相關也會導致線性相關係數很大
在這裏插入圖片描述
該散點圖對應的數據的person相關係數爲0.816.

4. 離羣點對相關係數的影響很大
在這裏插入圖片描述
該散點圖對應的數據的person相關係數爲0.816.若去掉離羣點,相關係數爲0.98

5. 如果兩個變量的相關係數很大也不能說明兩者相關。(因爲必要的前提是這兩個變量線性相關)
在這裏插入圖片描述
該散點圖對應的數據的person相關係數爲0.816.

6. 相關係數計算結果爲0,只能說不是線性相關,但說不定會有更復雜的相關關係(非線性相關)
在這裏插入圖片描述
7. 在計算皮爾遜相關係數之前,一定要做出散點圖來看兩組變量之間是否有線性關係。(推薦使用Spss)

參考內容:清風數學建模

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章