回归模型的基础是相关

原創

许卉

2020-05-30 15:54

相关是随机理论的基础。田径赛中百米运动员想跑得快，需要大步幅与高步频，但步幅和步却是一对相互矛盾的存在，只有步幅和步频达到最优平衡点时，人才可以跑的更快，所以任何运动员都需要建立步幅和步频之间的平衡模型。

统计关系分类

相关关系是数据分析的基石，统计关系可以理解为两大类，，：

函数关系：即确定性关系、确定的对应关系，反映着现象之间存在着严格的依存关系，这种关系可以用数学表达式Y=f(x)表达。例如由于价格因素，罗森某天的营业总额和商品销量之间就存在着严格的依存关系，再例如圆与半径之间也存在着严格的依存关系；
随机关系：即相关关系，变量间不能用函数关系精确的表达，点不能被函数完全刻画，X与Y间谁决定并谁不知道。例如销量和收入的关系。

相关关系的种类

相关关系一般有如下三种：

一对一相关：一个Y对一个X，即简单相关，生活中用的最多；
一对多相关：一个Y对多个X，即复相关，例如R方就是复相关系数；
多对多相关：多个Y对多个X，这涉及到了典型相关分析。

相关系数的种类

统计中能被称为相关系数的参数有四十多个，大部分统计软件只能提供spearman、pearson、kendall这几个相关系数，SAS除了这三个相关系数外，还能提供hoeffman相关系数，信用评分中一般会使用hoeffding相关系数，所以fico信用评分的代码一般会用SAS来写，相较于其他语言，我也更喜欢用SAS去建立信用评分模型。

此外，pearson、spearman、kendall与hoeffman相关系数要求数据起码为定序数据，如果数据为定类数据，则只能进行列联相关了。

数据相关的衡量指标

模型中一般需要Y和X间要相关，但是X之间最好不要相关。相关有统计意义上的相关和实际业务中的相关之分，有些数据变量间在统计上相关性很强，但是实际业务中却并没有关系，这种情况就需要关注数据是否出了问题。

一般会用相关系数去衡量数据的相关性。相关性具有如下特点：

相关性取正值还是负值取决于分子协方差；
相关性的绝对值在0与1之间；
相关性绝对值的大小可以说明事物之间相关关系的紧密程度。

一般相关系数的衡量标准为

相关性绝对值<0.3表明事物间没有关系；
0.3<=相关性绝对值<0.5表明事物间低相关；
0.5<=相关性绝对值<0.8表明事物间显著相关；
相关性绝对值>=0.8表明事物间高度相关。

一般，相关系数非常高如0.85的情况只会出现在书本上，实际工作中我还没有遇到，如果出现这么高的相关系数，可能是遇到了伪相关悖论。我举一个例子来说明伪相关悖论是什么：例如张三是我在东北上大学时的大学同学，李四是我在北京工作的同事，张三来北京看我，我们三人便有了关联，但是如果没有我，我的北京同事和我的大学同学这辈子都不会有什么人生交集，所以张三和李四间因为我便产生了伪相关。伪相关没有办法进行检验，所以如果计算出的相关系数很高，一定要小心的判断下这两个变量在业务中是否合理。

相关系数计算的SAS代码

例如场景为下班路上，数据涉及变量为上班耗时time、年龄age、体重weight、身体状态performance、以及耗费精力energy。目的为计算分析变量间的相关关系。

下面的两段代码分别为指定固定变量与非指定固定变量两种情况下实现相关系数计算的 SAS代码：

利用with参数指定固定变量为energy，得到的结果为每个变量与energy变量的散点图：

proc corr data=XUHUI pearson spearman kendall hoeffding rank plots(only)=scatter(nvar=all ellipse=none);

var time age weight performance;

with energy;

id name;

title "Correlations and Scatter Plots with energy";

run；

这种写法中没有指定with参数，除了得到四个相关系数的计算结果外，还会得到变量之间的散点矩阵图，即所有变量两两之间的相互关系：

proc corr data=XUHUI pearson spearman kendall hoeffding nosimple plots=matrix(nvar=all histogram);

var time age weight performance;

title "Correlations and Scatter Plot Matrix of Predictors";

run；

我的公众号：Data Analyst

个人网站：https://www.datanalyst.net/

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

回归模型的基础是相关

客戶分羣決定營銷成敗

方差分析分類及SAS實現代碼

迴歸模型的基礎是相關

關於密度函數、分佈函數與生存函數的一點看法（一）

方差分析中的多因子交互作用

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結