多元线性回归模型检验-续上篇

https://editor.csdn.net/md/?articleId=105137945
其实上一篇讨论的多元线性回归还不是很全面,而且训练和测试集都没有分,在这里继续讨论多元线性回归模型检验的相关问题。

只要有P值的出现,样本量不超过5000,比如线性回归和逻辑回归;搞清楚算法背后的逻辑才是比较重要的。

多元线性回归需要关注一些什么点?R2和模型稳定性,也就是那些β是不是稳定的,检验模型是不是稳定需要对模型进行诊断。

多元线性回归的输出变量是连续变量,输入变量中如果包含离散变量需要做哑变量或One-hot编码,连续变量可以直接用来建模。

多元线性回归假设解释

多元线性回归需要满足的假设其实是比较强的,但是在机器学习或者是数据挖掘领域,后3条针对误差项(其实就是残差)的假设基本上被忽略了。
第1条: 看因变量y和自变量x之间的关系,可以通过绘制散点图,确定是线性、二次函数还是指数函数关系,根据这个来建立x和y之间的关系。后面的神经网络和SVM等模型就是为了方便找到x和y之间的关系。
第2条: 解释变量和随机扰动项不存在线性关系。我们想象一下,如果他们之间存在线性关系的话,是不是会导致回归系数估计的不准确啊,举个例子解释变量y是收入,x是受教育程度,并假设回归方程是 y = 0.5x + e,设想如果扰动项里面包含父母收入,实际上父母收入会影响孩子的收入y,那么回归系数估计值0.5是不是偏高了啊。那怎么解决这个问题呢,那就多纳入一些变量来参与建模吧,这也是多元线性回归存在的必要性,同时这也引出了一个变量筛选的问题。
第3条:解释变量之间不存在线性关系(或强相关)。在建模时,我们不但需要估计回归系数的均值,还需要估计回归系数的标准差:S(β)= S(e)/ |x|,那么如果解释变量x之间存在线性关系的话,分母趋向于0了,回归系数标准差趋于无穷大,所以多重共线性问题是需要去避免的。

多元线性回归诊断方法

如果扰动项是右偏,那么残差图肯定是异方差分布,取对数即可,所以下图中假设5和假设4可以说是一致的。
在这里插入图片描述

多元线性回归模型的诊断

(1)残差分析:实际上当残差不包含任何信息的时候是最好的,如果还包含一些信息,需要把这个信息提取出来。残差图的纵座标是残差,横座标可以是各个解释变量x,实际上在做单变量分析,解释变量x被解释变量y做相关性分析的时候就知道了;比如某个解释变量x和被解释变量y都是右偏,那么残差图肯定是异方差,同时取对数重新建模;如果某个解释变量x和被解释变量y存在抛物线关系,那么加入二次项重新进行建模;自相关一般在时间序列数据中比较常见。
在这里插入图片描述
在这里插入图片描述
(2)强影响点分析
为什么要做强影响点分析???因为有了强影响点的存在之后,会把本来没有关系的数据带出关系来,而且这个关系特别不稳定。比如下图,本来数据点之间没有什么关系,但是因为强影响点的存在之后,给数据带出来了这么一个线性关系出来,但这个关系是非常不稳定的,不具有大众性。
在这里插入图片描述
怎么解决强影响点分析问题???学生化残差(只做一次)。

|SR| = (残差 - 残差均值) / 残差标准差。
|SR| > 2,剔除掉满足条件的记录(几百个样本)
|SR| > 3,剔除掉满足条件的记录(几千个样本)

(3)共线性问题
可以参考下面的链接:https://www.sohu.com/a/326904117_100103806
共线性的判别指标:膨胀系数VIF、相关系数
共线性的解决方法:根据VIF和相关系数手动剔除变量、逐步回归法、岭回归。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章