標題叫再說相關性分析,爲什麼叫再說呢?因爲之前說過了唄,但是一個知識點你反覆咀嚼的時候就是會有不同的感悟,因此這篇文章要再來說說相關性分析。
什麼是相關性
百度百科給的解釋是:兩個變量的關聯程度。
或者多個變量,或者變量與變量之間吧的關聯程度,都可以,就是說A和B之間肯定存在着某種關係,確定的關係我們用函數就可以描述出來了,而這種不穩定、不確定、不精確變化的關係我們就稱之爲相關關係。
比如不久前的新聞,說深圳離婚都要排號了,然後我們發現哈,越是大城市,人們的離婚率就越高,這就反映了城市化水平和離婚率之間的一個相關關係。
這是生活中的例子,工作中也很常見啊,如果一個指標和另一個指標是一起變化的,說明它們是相關的,而如果是一個指標先變化從而導致了另一個指標的變化,說明它們是有因果性的,什麼是因果性,請接着往下看。
相關和因果的區別
兩個變量之間存在相關關係,並不意味着一個變量會影響另一個變量,也不意味着二者存在實際關係。
再深入理解一下,相關性是數學關係,而因果性是邏輯關係。
還是城市化水平和離婚率的例子,只能說明城市化的水平越高的同時,離婚率也增加了(相關),但不能說是因爲城市化水平高,所以導致人們離婚(因果),因爲這中間還有很多因素,城市化水平只是其中的一個。
在知乎上看到一個例子也可以來說一下,火災現場,救護車的數量與死亡人數呈正相關,這可能確是實情,但我們不能說是因爲派去的救護車多了導致死亡人數的增加,更不能因此作出通過減少救護車的數量來降低死亡人數的結論。
《精益數據分析》這本書裏有提到:發現相關性可以幫助你預測未來,而發現因果性意外着你可以改變未來。相關性已經很好了,但因果性更佳,但很多時候,我們只能發現相關性,但應永不停止尋找因果性。
另外說一點,蝴蝶效應,是相關性還是因果性呢?大家可以評論區補充。
爲什麼要做相關性分析
爲什麼要進行相關性分析,如果你認真閱讀的話,相信你已經知道答案了,前兩段剛說完:相關性可以預測未來。
在判斷兩個變量是否相關的時候,會畫出散點圖,其中與數據點擬合程度最高的線稱爲最佳擬合線,通過這條線可以用來預測數值。
如何進行相關性分析
相關關係有很多種分類,根據變量間相互關係的形式可以分爲線性相關和非線性相關,通常比較常用的是線性相關,這裏我們也只討論線性相關。
相關係數
比較常用的線性相關分析,用來衡量它的指標是線性相關係數,又叫皮爾遜相關係數,通常用r表示,取值範圍是[-1,1],這裏要注意的是在什麼取整範圍內時強相關,什麼又是弱相關,但這也只是數學意義,在實際工作中也需要結合業務去判斷。
散點圖
散點圖是將兩個變量可視化觀察其關係的最好呈現方式。通過散點圖我們可以清晰地看出來到底是正相關還是負相關。
函數方法
在Excel中,可以用CORREL函數來計算相關係數,同時還可以用數據——數據分析——相關係數,這個功能來進行相關分析。在之前寫的文章裏有詳細的運用說明:
猜你喜歡:
什麼是好的數據指標:精益數據分析
@ 作者:可樂
@ 公衆號/知乎專欄/頭條/簡書:可樂的數據分析之路
@加個人微信:data_cola,備註:進羣,拉你入 可樂的數據分析羣 和各行各業的小夥伴交流探討數據分析相關內容
微信公衆號
個人微信號