做完线性回归后应该知道的知识

原創

fff2zrx

2020-06-28 17:49

线性回归听着很简单，很早也就学过，以前就只会拟合模型，拟合出来看看R方就完事了，到最近一次作业才有一些真正的理解，正好看到一篇不错的文章，转载过来。

理解什么是线性回归

线性回归也被称为最小二乘法回归（Linear Regression, also called Ordinary Least-Squares (OLS) Regression）。它的数学模型是这样的：

y = a+ b* x＋e

其中，a 被称为常数项或截距；b 被称为模型的回归系数或斜率；e 为误差项。a 和 b 是模型的参数。

当然，模型的参数只能从样本数据中估计出来：

y'= a' + b'* x

我们的目标是选择合适的参数，让这一线性模型最好地拟合观测值。拟合程度越高，模型越好。
那么，接下来的问题就是，我们如何判断拟合的质量呢？

这一线性模型可以用二维平面上的一条直线来表示，被称为回归线。

模型的拟合程度越高，也即意味着样本点围绕回归线越紧密。

如何计算样本点与回归线之间的紧密程度呢？

高斯和勒让德找到的方法是：被选择的参数，应该使算出来的回归线与观测值之差的平房和最小。用函数表示为：

这被称为最小二乘法。最小二乘法的原理是这样的：当预测值和实际值距离的平方和最小时，就选定模型中的两个参数（a 和 b）。这一模型并不一定反映解释变量和反应变量真实的关系。但它的计算成本低；相比复杂模型更容易解释。

模型

估计出来后，我们要回答的问题是：

我们的模型拟合程度如何？或者说，这个模型对因变量的解释力如何？（R2）

整个模型是否能显著预测因变量的变化？（F 检验）

每个自变量是否能显著预测因变量的变化？（t 检验）

首先回答第一个问题。为了评估模型的拟合程度如何，我

们必须有一个可以比较的基线模型。

如果让你预测一个人的体重是多少？在没有任何额外信息的情况下，你可能会用平均值来预测，尽管会存在一定误差，但总比瞎猜好。

现在，如果你知道他的身高信息，你的预测值肯定与平均值不一样。额外信息相比平均值更能准确地预测被预测的变量的能力，就代表模型的解释力大小。

上图中，SSA 代表由自变量 x 引起的 y 的离差平方和，即回归平方和，代表回归模型的解释力；SSE 代表由随机因素引起的 y 的离差平方和，即剩余平方和，代表回归模型未能解释的部分；SST 为总的离差平方和，即我们仅凭 y 的平均值去估计 y 时所产生的误差。

用模型能够解释的变异除以总的变异就是模型的拟合程度：
R2=SSA/SST=1-SSE

R2（R 的平方）也被称为决定系数或判定系数。

第二个问题，我们的模型是否显著预测了 y 的变化？

假设 y 与 x 的线性关系不明显，那么 SSA 相对 SSE 占有较大的比例的概率则越小。换句话说，在 y 与 x 无线性关系的前提下，SSA 相对 SSE 的占比越高的概率是越小的，这会呈现一定的概率分布。统计学家告诉我们它满足 F 分布，就像这样：

如果 SSA 相对 SSE 占比较大的情况出现了，比如根据 F 分布，这个值出现的概率小于 5%。那么，我们最好是拒绝 y 与 x 线性关系不显著的原始假设，认为二者存在显著的线性关系较为合适。

第三个问题，每个自变量是否能显著预测因变量的变化？换句话说，回归系数是否显著？

回归系数的显著性检验是围绕回归系数的抽样分布（t 分布）来进行的，推断过程类似于整个模型的检验过程，不赘言。

实际上，对于只有一个自变量的一元线性模型，模型的显著性检验和回归系数的检验是一致的，但对于多元线性模型来说，二者就不能等价了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

做完线性回归后应该知道的知识

容器中nginx无法使用同一个网络下的容器域名

Python: SunMoonTimeCalculator

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

NETCore中实现一个轻量无负担的极简任务调度ScheduleTask

docker使用特定的网络

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

「Pygors跨平台GUI」2：安装MinGW-w64、MSYS2还是WSL2

nodejs学习07——API

避免DbContext同时在多个线程调用

GPT-4o 引领人机交互新风向，向量数据库赛道沸腾了

Spark學習筆記（二）：RDD編程基礎

如何加載訓練完畢後的模型文件繼續訓練模型

做完線性迴歸後應該知道的知識

Python3正則匹配

pandas學習（三）：數據拼接、數據合併和數據聚合

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結