多元线性回归模型检验-续上篇

原創

python_new

2020-06-17 12:36

https://editor.csdn.net/md/?articleId=105137945
其实上一篇讨论的多元线性回归还不是很全面，而且训练和测试集都没有分，在这里继续讨论多元线性回归模型检验的相关问题。

只要有P值的出现，样本量不超过5000，比如线性回归和逻辑回归；搞清楚算法背后的逻辑才是比较重要的。

多元线性回归需要关注一些什么点？R2和模型稳定性，也就是那些β是不是稳定的，检验模型是不是稳定需要对模型进行诊断。

多元线性回归的输出变量是连续变量，输入变量中如果包含离散变量需要做哑变量或One-hot编码，连续变量可以直接用来建模。

多元线性回归假设解释

多元线性回归需要满足的假设其实是比较强的，但是在机器学习或者是数据挖掘领域，后3条针对误差项（其实就是残差）的假设基本上被忽略了。
第1条：看因变量y和自变量x之间的关系，可以通过绘制散点图，确定是线性、二次函数还是指数函数关系，根据这个来建立x和y之间的关系。后面的神经网络和SVM等模型就是为了方便找到x和y之间的关系。
第2条：解释变量和随机扰动项不存在线性关系。我们想象一下，如果他们之间存在线性关系的话，是不是会导致回归系数估计的不准确啊，举个例子解释变量y是收入，x是受教育程度，并假设回归方程是 y = 0.5x + e，设想如果扰动项里面包含父母收入，实际上父母收入会影响孩子的收入y，那么回归系数估计值0.5是不是偏高了啊。那怎么解决这个问题呢，那就多纳入一些变量来参与建模吧，这也是多元线性回归存在的必要性，同时这也引出了一个变量筛选的问题。
第3条：解释变量之间不存在线性关系（或强相关）。在建模时，我们不但需要估计回归系数的均值，还需要估计回归系数的标准差：S（β）= S（e）/ |x|，那么如果解释变量x之间存在线性关系的话，分母趋向于0了，回归系数标准差趋于无穷大，所以多重共线性问题是需要去避免的。

多元线性回归诊断方法

如果扰动项是右偏，那么残差图肯定是异方差分布，取对数即可，所以下图中假设5和假设4可以说是一致的。

多元线性回归模型的诊断

（1）残差分析：实际上当残差不包含任何信息的时候是最好的，如果还包含一些信息，需要把这个信息提取出来。残差图的纵座标是残差，横座标可以是各个解释变量x，实际上在做单变量分析，解释变量x被解释变量y做相关性分析的时候就知道了；比如某个解释变量x和被解释变量y都是右偏，那么残差图肯定是异方差，同时取对数重新建模；如果某个解释变量x和被解释变量y存在抛物线关系，那么加入二次项重新进行建模；自相关一般在时间序列数据中比较常见。

（2）强影响点分析：
为什么要做强影响点分析？？？因为有了强影响点的存在之后，会把本来没有关系的数据带出关系来，而且这个关系特别不稳定。比如下图，本来数据点之间没有什么关系，但是因为强影响点的存在之后，给数据带出来了这么一个线性关系出来，但这个关系是非常不稳定的，不具有大众性。

怎么解决强影响点分析问题？？？学生化残差（只做一次）。

|SR| = (残差 - 残差均值) / 残差标准差。
|SR| > 2，剔除掉满足条件的记录（几百个样本）
|SR| > 3，剔除掉满足条件的记录（几千个样本）

（3）共线性问题
可以参考下面的链接：https://www.sohu.com/a/326904117_100103806
共线性的判别指标：膨胀系数VIF、相关系数
共线性的解决方法：根据VIF和相关系数手动剔除变量、逐步回归法、岭回归。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

多元线性回归模型检验-续上篇

多元线性回归假设解释

多元线性回归诊断方法

多元线性回归模型的诊断

一键自动化博客发布工具,用过的人都说好(头条篇)

數理統計的相關知識

python遍歷文件夾中帶指定後綴的文件並做數據拼接

統計推斷中的參數估計和假設檢驗

常見分佈的概率分佈及期望方差

多元線性迴歸模型檢驗-續上篇

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結