机器学习---线性回归算法梳理

任务1 - 线性回归算法梳理

1、机器学习的一些概念 有监督、无监督、泛化能力、过拟合、欠拟合(方差和偏差以及各自解决办法)、交叉验证
2、线性回归的原理
3、线性回归损失函数、代价函数、目标函数
4、优化方法(梯度下降法、牛顿法、拟牛顿法等)
5、线性回归的评估指标
6、sklearn参数详解

一、基本概念

1监督学习:从标注数据中学习预测模型的机器学习问题。
标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应地输出。监督学习的本质是学习输入到输出的映射的统计规律。
2无监督学习:从无标注数据中学习预测模型的机器学习问题。
无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。
3泛化能力:是指由该方法学习到的模型对未知数据的预测能力。
4过拟合:如果一味追求提高对训练数据的预测能力,所选模型的复杂度往往会比真模型要高,这种现象称为过拟合。也即,过拟合指学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。
5欠拟合:所选模型过于简单,对未知数据的预测能力很差的现象。
6交叉验证:基本思想是重复地使用数据;把给定的数据进行切分,将切分出的数据集分为训练集和数据集,在此基础上反复训练、测试以及模型选择。

二、线性回归的原理

在这里插入图片描述
其中, x1,x2,…,xn表示变量(特征分量),y表示因变量,θ1,θ2,…,θn表示对应变量(特征)的权重,θ0是偏倚项(称为截距)。
对于参数 ,在物理上可以解释为:在自变量(特征)之间相互独立的前提下,θi 反映自变量x对因变量y的影响程度, θi越大,说明xi对结果y的影响越大。因此,我们可以通过每个自变量(特征)前的参数,可以很直观的看出那些特征分量对结果的影响的大小。

三、线性回归损失函数、代价函数、目标函数

这个损失函数用的是的预测值与真实值之差的平方和。
在这里插入图片描述
线性回归误差平方损失极小化与极大似然估计等价。其实在概率模型中,目标函数的原函数(或对偶函数)极小化(或极大化)与极大似然估计等价,这是个带有普遍性的结论。比如在最大熵模型中,有对偶函数极大化与极大似然估计等价的结论。

四、优化方法(梯度下降法、牛顿法、拟牛顿法等)

梯度下降法和牛顿法来自李航老师的《统计学习方法》一书,如下图:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

五、线性回归的评估指标

回归模型的最终目标是通过函数表达式建立自变量x与结果y之间的关系,希望通过x能较为准确地表示结果y。在实际的应用场合中,很难甚至不可能把导致y的所有变量(特征)都找出来,并放到回归模型中。那么模型中存在的x通常认为是影响结果的最主要的变量集合(又称为因子,在ML中称为特征集)。根据中心极限定理,把那些对结果影响较小的变量(假设独立同分布)之和认为服从正态分布是合理的。
在这里插入图片描述
在这里插入图片描述
上述两式等价,即:经过最大似然估计推导出来的待优化的目标函数与平方损失函数是等价的。

六、sklearn参数详解

借鉴学习别人的,这个很详细地介绍了参数:
https://blog.csdn.net/qq_41577045/article/details/79844931

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章