迴歸模型的基礎是相關

       相關是隨機理論的基礎。田徑賽中百米運動員想跑得快,需要大步幅與高步頻,但步幅和步卻是一對相互矛盾的存在,只有步幅和步頻達到最優平衡點時,人纔可以跑的更快,所以任何運動員都需要建立步幅和步頻之間的平衡模型。

 

                                                                      統計關係分類

       相關關係是數據分析的基石,統計關係可以理解爲兩大類,,:

  • 函數關係:即確定性關係、確定的對應關係,反映着現象之間存在着嚴格的依存關係,這種關係可以用數學表達式Y=f(x)表達。例如由於價格因素,羅森某天的營業總額和商品銷量之間就存在着嚴格的依存關係,再例如圓與半徑之間也存在着嚴格的依存關係;
  • 隨機關係:即相關關係,變量間不能用函數關係精確的表達,點不能被函數完全刻畫,X與Y間誰決定並誰不知道。例如銷量和收入的關係。

                                                                     相關關係的種類

       相關關係一般有如下三種:

  • 一對一相關:一個Y對一個X,即簡單相關,生活中用的最多
  • 一對多相關:一個Y對多個X,即複相關,例如R方就是復相關係數;
  • 多對多相關:多個Y對多個X,這涉及到了典型相關分析

                                                                    相關係數的種類

       統計中能被稱爲相關係數的參數有四十多個,大部分統計軟件只能提供spearman、pearson、kendall這幾個相關係數,SAS除了這三個相關係數外,還能提供hoeffman相關係數,信用評分中一般會使用hoeffding相關係數,所以fico信用評分的代碼一般會用SAS來寫,相較於其他語言,我也更喜歡用SAS去建立信用評分模型

       此外,pearson、spearman、kendall與hoeffman相關係數要求數據起碼爲定序數據,如果數據爲定類數據,則只能進行列聯相關了。

                                                                     數據相關的衡量指標

       模型中一般需要Y和X間要相關,但是X之間最好不要相關。相關有統計意義上的相關和實際業務中的相關之分,有些數據變量間在統計上相關性很強,但是實際業務中卻並沒有關係,這種情況就需要關注數據是否出了問題。 

       一般會用相關係數去衡量數據的相關性。相關性具有如下特點:

  • 相關性取值還是取決於分子協方差
  • 相關性的絕對值在0與1之間;
  • 相關性絕對值的大小可以說明事物之間相關關係的緊密程度。

                                                                一般相關係數的衡量標準爲

  • 相關性絕對值<0.3表明事物間沒有關係
  • 0.3<=相關性絕對值<0.5表明事物間相關;
  • 0.5<=相關性絕對值<0.8表明事物間顯著相關;
  • 相關性絕對值>=0.8表明事物間高度相關。

        一般,相關係數非常高如0.85的情況只會出現在書本上,實際工作中我還沒有遇到,如果出現這麼高的相關係數,可能是遇到了僞相關悖論。我舉一個例子來說明僞相關悖論是什麼:例如張三是我在東北上大學時的大學同學,李四是我在北京工作的同事,張三來北京看我,我們三人便有了關聯,但是如果沒有我,我的北京同事和的大學同學這輩子都不會有什麼人生交集,所以張三和李四間因爲便產生了僞相關。僞相關沒有辦法進行檢驗,所以如果計算出的相關係數很高,一定要小心的判斷下這兩個變量在業務中是否合理。

                                                               相關係數計算的SAS代碼

       例如場景爲下班路上,數據涉及變量爲上班耗時time、年齡age、體重weight、身體狀態performance、以及耗費精力energy。目的爲計算分析變量間的相關關係。

       下面的兩段代碼分別爲指定固定變量與非指定固定變量兩種情況下 實現相關係數計算的 SAS代碼:

  • 利用with參數指定固定變量爲energy,得到的結果爲每個變量與energy變量的散點圖:

proc corr data=XUHUI pearson spearman kendall hoeffding  rank plots(only)=scatter(nvar=all ellipse=none);

var time age weight performance;

with energy;

id name;

title "Correlations and Scatter Plots with energy";

run;

       這種寫法中沒有指定with參數,除了得到四個相關係數的計算結果外,還會得到變量之間的散點矩陣圖,即所有變量 兩兩之間的相互關係:

proc corr data=XUHUI pearson spearman kendall hoeffding nosimple  plots=matrix(nvar=all histogram);

var time age weight performance;

title "Correlations and Scatter Plot Matrix of Predictors";

run;

我的公衆號:Data Analyst

個人網站:https://www.datanalyst.net/

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章