算法之路--线性回归(五)

一:线性回归模型的优点:

1.建模速度快,不需要很复杂的计算,在数据量大的情况下依然运行速度很快。

2.可以根据系数给出每个变量的理解和解释。

3.对异常值很敏感。

二:缺点

 1.只能用于拟合线性数据

三:线性回归的用处

线性回归有很多实际用途。分为以下两大类:

  1. 如果目标是预测或者映射,线性回归可以用来对观测数据集的和X的值拟合出一个预测模型。当完成这样一个模型以后,对于一个新增的X值,在没有给定与它相配对的y的情况下,可以用这个拟合过的模型预测出一个y值。

  2. 给定一个变量y和一些变量X1,...,Xp,这些变量有可能与y相关,线性回归分析可以用来量化y与Xj之间相关性的强度,评估出与y不相关的Xj,并识别出哪些Xj的子集包含了关于y的冗余信息。

例子:线性回归中最常见的就是房价的问题。一直存在很多房屋面积和房价的数据,如下图所示:

在这种情况下,就可以利用线性回归构造出一条直线来近似地描述放假与房屋面积之间的关系,从而就可以根据房屋面积推测出房价。

四:线性回归概念

线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。

回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析

五:准备知识点

   高斯分布

   极大似然

   最小二乘

   梯度下降

六:数据归一化

归一化的目的就是使得预处理的数据被限定在一定的范围内(比如[0,1]或者[-1,1]),从而消除奇异样本数据导致的不良影响。

1)在统计学中,归一化的具体作用是归纳统一样本的统计分布性。归一化在0~1之间是统计的概率分布,归一化在-1~+1之间是统计的座标分布。

2)奇异样本数据是指相对于其他输入样本特别大或特别小的样本矢量(即特征向量),譬如,下面为具有两个特征的样本数据x1、x2、x3、x4、x5、x6(特征向量—>列向量),其中x6这个样本的两个特征相对其他样本而言相差比较大,因此,x6认为是奇异样本数据。

奇异样本数据的存在会引起训练时间增大,同时也可能导致无法收敛,因此,当存在奇异样本数据时,在进行训练之前需要对预处理数据进行归一化;反之,不存在奇异样本数据时,则可以不进行归一化。
详情请看资料:https://blog.csdn.net/zenghaitao0128/article/details/78361038

数据归一化的方法:

数据归一化的方法主要有两种:最值归一化和均值方差归一化。

 

最值归一化的计算公式如下:

 

最值归一化的特点是,可以将所有数据都映射到0-1之间,它适用于数据分布有明显边界的情况,容易受到异常值(outlier)的影响,异常值会造成数据的整体偏斜。

 

均值方差归一化的计算公式如下:

均值方差归一化的特点是,可以将数据归一化到均值为0方差为1的分布中,不容易受到异常值(outlier)影响。

详情请看:https://www.cnblogs.com/xuezou/p/9332763.html

线性回归分析的步骤如下:

(1)根据预测目标,确定自变量和因变量

围绕业务问题,明晰预测目标,从经验、常识、以往历史数据研究等角度,初步确定自变量和因变量。

(2)绘制散点图,确定回归模型类型

通过绘制散点图的方式,从图形化的角度初步判断自变量和因变量之间是否具有线性相关关系,同时进行相关分析,根据相关系数判断自变量与因变量之间的相关程度和方向,从而确定回归模型的类型。

更多资料:https://zhuanlan.zhihu.com/p/40141010

(3)估计模型参数,建立回归模型

采用最小二乘法进行模型参数的估计,建立回归模型。

(4)对回归模型进行检验

回归模型可能不是一次即可达到预期的,通过对整个模型及各个参数的统计显著性检验,逐步优化和最终确立回归模型。

(5)利用回归模型进行预测

模型通过检验后,应用到新的数据中,进行因变量目标值的预测。



 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章