16種常用的數據分析方法-相關分析

相關性分析研究現象之間是否存在某種依存關係,對具體有依存關係的現象探討相關方向及相關程度。

 

相關分析是一種簡單易行的測量定量數據之間的關係情況的分析方法。可以分析包括變量間的關係情況以及關係強弱程度等。

 

如:身高和體重的相關性;降水量與河流水位的相關性;工作壓力與心理健康的相關性等。

 

 

 

 

相關性種類

 

 

 

 

客觀事物之間的相關性,大致可歸納爲兩大類:

 

 

一、函數關係

 

 

函數關係是兩個變量的取值存在一個函數來唯一描述。

 

比如銷售額與銷售量之間的關係,可用函數y=px(y表示銷售額,p表示單價,x表示銷售量)來表示。所以,銷售量和銷售額存在函數關係。

這一類關係,不是我們關注的重點。

 

 

 

二、統計關係

 

 

統計關係,指兩事物之間的非一一對應關係,即當變量x取一定值時,另一個變量y雖然不唯一確定,但按某種規律在一定的範圍內發生變化。

 

比如:子女身高與父母身高、廣告費用與銷售額的關係,是無法用一個函數關係唯一確定其取值的,但這些變量之間確實存在一定的關係。大多數情況下,父母身高越高,子女的身高也就越高;廣告費用花得越多,其銷售額也相對越多。

 

這種關係,就叫做統計關係。

 

按照相關表現形式,又可分爲不同的相關類型,詳見下圖:

 

 

 

 

 

 

 

相關性描述方式

 

 

 

 

描述兩個變量是否有相關性,常見的方式有3種:

 

1.相關圖(典型的如散點圖和列聯表等等)

 

2.相關係數

 

3.統計顯著性

 

 

用可視化的方式來呈現各種相關性,常用散點圖,如下圖:

 

 

 

 

 

相關性分析步驟

 

 

 

 

Step1:相關分析前,首先通過散點圖瞭解變量間大致的關係情況。

 

如果變量之間不存在相互關係,那麼在散點圖上就會表現爲隨機分佈的離散的點,如果存在某種相關性,那麼大部分的數據點就會相對密集並以某種趨勢呈現。

 

 

如上圖,展現了平時成績與能力評分之間的關係情況:X增大時,Y會明顯的增大,說明X和Y之間有着正向相關關係。

 

 

Step2:計算相關係數

 

散點圖能夠展現變量之間的關係情況,但不精確。還需要通過相關分析得到相關係數,以數值的方式精準反映相關程度。

 

相關係數常見有三類,分別是:

 

Pearson相關係數、

Spearman等級相關係數
Kendall相關係數。

 

 

最常使用的是Pearson相關係數;當數據不滿足正態性時,則使用Spearman相關係數,Kendall相關係數用於判斷數據一致性,比如裁判打分。

 

 

 

 

相關性分析案例

 

 

 

 

  • 數據集說明

 

某公司員工的基本情況,數據集含3列,分別爲:性別、年齡、工資,

 

分析主題:希望瞭解員工年齡和工資水平之間的關係(企業人事部門的讀者可關心一下)。

 

 

 

  • 相關性可視化

 

如圖,用散點圖先觀察2個變的關係。

 

 

散點圖顯示2個變量似乎存在一定的相關性,爲了得到更準確的結論,接下來要行爲更準確的相關分析驗證,讓分析結果更清晰。

 

 

  • 相關係數計算-SPSS分析過程

 

 

1.菜單操作:分析——相關——雙變量

 

 

 

 

2.結果解讀

 

 

 

原假設:工資與年齡間不存在相關關係

 

計算結果sig=0.002,即原假設不成立。現實意義爲年齡與工資水平有着極顯著的相關關係,也就是說隨着年齡的增加,工資會逐漸下降。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章