文章目錄
一、 相關係數專欄簡介
- 本專欄內容設計講解兩種最爲常用的相關係數:皮爾遜Person相關係數和斯皮爾曼Spearman等級相關係數。
- 相關係數可用來衡量兩個變量之間的相關性的大小,根據數據滿足的不同條件,我們要選擇不同的相關係數進行計算和分析。
- 該部分是建模論文中最容易用錯的方法。
- 關於如何使用Matlab、Spss、Excel等工具解決相關係數問題,將會在後面的部分單獨寫一篇博客進行講解。
- 本專欄注重的方面是如何使用相關方法去解決對應的數學建模問題,而對於原理部分的講解不會特別深入。
二、相關的基本數學概念
總體和樣本
- 總體:所要考察對象的全部個體
- 樣本:從總體中所抽取的一部分個體叫做總體的一個樣本。
- 我們可以通過計算樣本的統計量來估計總體的統計量
- 例如:使用樣本均值、樣本標準差來估計總體的的均值(平均水平)和總體的標準差(偏離程度)
三、皮爾遜相關係數(Person)
1. 協方差(用於引出相關係數的定義)
- 協方差的大小表示的是兩個變量的總體的誤差。
- 協方差用於度量各個維度偏離其均值的程度。
- **若協方差的值爲正值,則說明兩者是正相關的;若爲負值,則說明兩者是負相關的;若爲0,則就是統計上說的“相互獨立”。**即,協方差爲0時,兩者獨立。協方差的絕對值越大,兩者對彼此的影響越大,反之,越小。
- 由協方差可以引出相關係數的定義。
參考資料鏈接:https://blog.csdn.net/GoodShot/article/details/79940438
- 我們觀察協方差的公式,可以發現,X,Y(即,兩個變量)的量綱會影響協方差的大小,因此並不適合比較大小,由此引出了相關係數。
2. 總體皮爾遜Person相關係數
- 觀察總體Person相關係數的公式:我們發現皮爾遜相關係數可以看成消除了兩個變量量綱影響,即將X和Y標準化後的協方差。 因此,我們可以使用皮爾遜相關係數來衡量兩個變量線性相關的程度。
3. 樣本皮爾遜Person相關係數
4.皮爾遜相關係數的使用範圍
- 兩個變量之間是線性關係,且是連續數據。
- 兩個變量的總體是正態分佈,或接近正態的單峯分佈。
- 兩個變量的觀測值是成對的,且每對觀測值之間相互獨立。
四、需要注意的地方
1. 相關係數只是用來衡量兩個變量線性相關程度的指標
2. 通過繪製散點圖可以很容易地判定兩個變量x和y之間的相關性
圖片來源[美]作者Pang‐Ning Tan 《數據挖掘導論》
3. 非線性相關也會導致線性相關係數很大
該散點圖對應的數據的person相關係數爲0.816.
4. 離羣點對相關係數的影響很大
該散點圖對應的數據的person相關係數爲0.816.若去掉離羣點,相關係數爲0.98
5. 如果兩個變量的相關係數很大也不能說明兩者相關。(因爲必要的前提是這兩個變量線性相關)
該散點圖對應的數據的person相關係數爲0.816.
6. 相關係數計算結果爲0,只能說不是線性相關,但說不定會有更復雜的相關關係(非線性相關)
7. 在計算皮爾遜相關係數之前,一定要做出散點圖來看兩組變量之間是否有線性關係。(推薦使用Spss)
參考內容:清風數學建模