回归模型的基础是相关

       相关是随机理论的基础。田径赛中百米运动员想跑得快,需要大步幅与高步频,但步幅和步却是一对相互矛盾的存在,只有步幅和步频达到最优平衡点时,人才可以跑的更快,所以任何运动员都需要建立步幅和步频之间的平衡模型。

 

                                                                      统计关系分类

       相关关系是数据分析的基石,统计关系可以理解为两大类,,:

  • 函数关系:即确定性关系、确定的对应关系,反映着现象之间存在着严格的依存关系,这种关系可以用数学表达式Y=f(x)表达。例如由于价格因素,罗森某天的营业总额和商品销量之间就存在着严格的依存关系,再例如圆与半径之间也存在着严格的依存关系;
  • 随机关系:即相关关系,变量间不能用函数关系精确的表达,点不能被函数完全刻画,X与Y间谁决定并谁不知道。例如销量和收入的关系。

                                                                     相关关系的种类

       相关关系一般有如下三种:

  • 一对一相关:一个Y对一个X,即简单相关,生活中用的最多
  • 一对多相关:一个Y对多个X,即复相关,例如R方就是复相关系数;
  • 多对多相关:多个Y对多个X,这涉及到了典型相关分析

                                                                    相关系数的种类

       统计中能被称为相关系数的参数有四十多个,大部分统计软件只能提供spearman、pearson、kendall这几个相关系数,SAS除了这三个相关系数外,还能提供hoeffman相关系数,信用评分中一般会使用hoeffding相关系数,所以fico信用评分的代码一般会用SAS来写,相较于其他语言,我也更喜欢用SAS去建立信用评分模型

       此外,pearson、spearman、kendall与hoeffman相关系数要求数据起码为定序数据,如果数据为定类数据,则只能进行列联相关了。

                                                                     数据相关的衡量指标

       模型中一般需要Y和X间要相关,但是X之间最好不要相关。相关有统计意义上的相关和实际业务中的相关之分,有些数据变量间在统计上相关性很强,但是实际业务中却并没有关系,这种情况就需要关注数据是否出了问题。 

       一般会用相关系数去衡量数据的相关性。相关性具有如下特点:

  • 相关性取值还是取决于分子协方差
  • 相关性的绝对值在0与1之间;
  • 相关性绝对值的大小可以说明事物之间相关关系的紧密程度。

                                                                一般相关系数的衡量标准为

  • 相关性绝对值<0.3表明事物间没有关系
  • 0.3<=相关性绝对值<0.5表明事物间相关;
  • 0.5<=相关性绝对值<0.8表明事物间显著相关;
  • 相关性绝对值>=0.8表明事物间高度相关。

        一般,相关系数非常高如0.85的情况只会出现在书本上,实际工作中我还没有遇到,如果出现这么高的相关系数,可能是遇到了伪相关悖论。我举一个例子来说明伪相关悖论是什么:例如张三是我在东北上大学时的大学同学,李四是我在北京工作的同事,张三来北京看我,我们三人便有了关联,但是如果没有我,我的北京同事和的大学同学这辈子都不会有什么人生交集,所以张三和李四间因为便产生了伪相关。伪相关没有办法进行检验,所以如果计算出的相关系数很高,一定要小心的判断下这两个变量在业务中是否合理。

                                                               相关系数计算的SAS代码

       例如场景为下班路上,数据涉及变量为上班耗时time、年龄age、体重weight、身体状态performance、以及耗费精力energy。目的为计算分析变量间的相关关系。

       下面的两段代码分别为指定固定变量与非指定固定变量两种情况下 实现相关系数计算的 SAS代码:

  • 利用with参数指定固定变量为energy,得到的结果为每个变量与energy变量的散点图:

proc corr data=XUHUI pearson spearman kendall hoeffding  rank plots(only)=scatter(nvar=all ellipse=none);

var time age weight performance;

with energy;

id name;

title "Correlations and Scatter Plots with energy";

run;

       这种写法中没有指定with参数,除了得到四个相关系数的计算结果外,还会得到变量之间的散点矩阵图,即所有变量 两两之间的相互关系:

proc corr data=XUHUI pearson spearman kendall hoeffding nosimple  plots=matrix(nvar=all histogram);

var time age weight performance;

title "Correlations and Scatter Plot Matrix of Predictors";

run;

我的公众号:Data Analyst

个人网站:https://www.datanalyst.net/

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章