再說相關性分析

標題叫再說相關性分析,爲什麼叫再說呢?因爲之前說過了唄,但是一個知識點你反覆咀嚼的時候就是會有不同的感悟,因此這篇文章要再來說說相關性分析。

什麼是相關性

百度百科給的解釋是:兩個變量的關聯程度。

或者多個變量,或者變量與變量之間吧的關聯程度,都可以,就是說A和B之間肯定存在着某種關係,確定的關係我們用函數就可以描述出來了,而這種不穩定、不確定、不精確變化的關係我們就稱之爲相關關係。

比如不久前的新聞,說深圳離婚都要排號了,然後我們發現哈,越是大城市,人們的離婚率就越高,這就反映了城市化水平和離婚率之間的一個相關關係。

這是生活中的例子,工作中也很常見啊,如果一個指標和另一個指標是一起變化的,說明它們是相關的,而如果是一個指標先變化從而導致了另一個指標的變化,說明它們是有因果性的,什麼是因果性,請接着往下看。

相關和因果的區別

兩個變量之間存在相關關係,並不意味着一個變量會影響另一個變量,也不意味着二者存在實際關係。

再深入理解一下,相關性是數學關係,而因果性是邏輯關係。

還是城市化水平和離婚率的例子,只能說明城市化的水平越高的同時,離婚率也增加了(相關),但不能說是因爲城市化水平高,所以導致人們離婚(因果),因爲這中間還有很多因素,城市化水平只是其中的一個。

在知乎上看到一個例子也可以來說一下,火災現場,救護車的數量與死亡人數呈正相關,這可能確是實情,但我們不能說是因爲派去的救護車多了導致死亡人數的增加,更不能因此作出通過減少救護車的數量來降低死亡人數的結論。

《精益數據分析》這本書裏有提到:發現相關性可以幫助你預測未來,而發現因果性意外着你可以改變未來。相關性已經很好了,但因果性更佳,但很多時候,我們只能發現相關性,但應永不停止尋找因果性。

另外說一點,蝴蝶效應,是相關性還是因果性呢?大家可以評論區補充。

爲什麼要做相關性分析

爲什麼要進行相關性分析,如果你認真閱讀的話,相信你已經知道答案了,前兩段剛說完:相關性可以預測未來。

在判斷兩個變量是否相關的時候,會畫出散點圖,其中與數據點擬合程度最高的線稱爲最佳擬合線,通過這條線可以用來預測數值。

 

如何進行相關性分析

相關關係有很多種分類,根據變量間相互關係的形式可以分爲線性相關和非線性相關,通常比較常用的是線性相關,這裏我們也只討論線性相關。

相關係數

比較常用的線性相關分析,用來衡量它的指標是線性相關係數,又叫皮爾遜相關係數,通常用r表示,取值範圍是[-1,1],這裏要注意的是在什麼取整範圍內時強相關,什麼又是弱相關,但這也只是數學意義,在實際工作中也需要結合業務去判斷。

 

散點圖

散點圖是將兩個變量可視化觀察其關係的最好呈現方式。通過散點圖我們可以清晰地看出來到底是正相關還是負相關。

 

函數方法

在Excel中,可以用CORREL函數來計算相關係數,同時還可以用數據——數據分析——相關係數,這個功能來進行相關分析。在之前寫的文章裏有詳細的運用說明:


用Excel做相關性分析


猜你喜歡:
什麼是好的數據指標:精益數據分析

泰坦尼克號數據分析

深入淺出數據分析

數據分析都有哪些崗位?

爲什麼要學統計學:赤裸裸的統計學

成爲數據分析師的第三年,我寫了10W字

@ 作者:可樂
@ 公衆號/知乎專欄/頭條/簡書:可樂的數據分析之路
@加個人微信:data_cola,備註:進羣,拉你入 可樂的數據分析羣 和各行各業的小夥伴交流探討數據分析相關內容

微信公衆號

微信公衆號

個人微信號

個人微信號

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章