机器学习—逻辑回归—初级算法梳理02

1、逻辑回归与线性回归相比较

虽然逻辑回归能够用于分类,不过其本质还是线性回归。它仅在线性回归的基础上,在特征到结果的映射中加入了一层sigmoid函数(非线性)映射,即先把特征线性求和,然后使用sigmoid函数来预测。

这主要是由于线性回归在整个实数域内敏感度一致,而分类范围,需要在[0,1]之内。而逻辑回归就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型,其回归方程与回归曲线如下图所示。逻辑曲线在z=0时,十分敏感,在z>>0或z<<0处,都不敏感,将预测值限定为(0,1)。

1、LR在线性回归的实数范围输出值上施加sigmoid函数将值收敛到0~1范围, 其目标函数也因此从差平方和函数变为对数损失函数, 以提供最优化所需导数(sigmoid函数是softmax函数的二元特例, 其导数均为函数值的f*(1-f)形式)。请注意, LR往往是解决二元0/1分类问题的, 只是它和线性回归耦合太紧, 不自觉也冠了个回归的名字(马甲无处不在). 若要求多元分类,就要把sigmoid换成大名鼎鼎的softmax了。

2、首先逻辑回归和线性回归首先都是广义的线性回归,其次经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数,另外线性回归在整个实数域范围内进行预测,敏感度一致,而分类范围,需要在[0,1]。逻辑回归就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型,因而对于这类问题来说,逻辑回归的鲁棒性比线性回归的要好。

3、逻辑回归的模型本质上是一个线性回归模型,逻辑回归都是以线性回归为理论支持的。但线性回归模型无法做到sigmoid的非线性形式,sigmoid可以轻松处理0/1分类问题。

逻辑回归给出离散的输出结果,然而线性回归给出的是连续的输出结果,

参考链接:线性回归和逻辑回归

2、逻辑回归

当医院的病人,我们通过病人的各种特征来预测病人患上癌症的可能性为多少。这个结果值在[0,1]之间。
在这里插入图片描述
目标函数:

在这里插入图片描述
对于每一个x表示为一个向量。即x=(x0,x1,x2,…,xd)表示病人的所有特征,计算一个病人可能的患病机率s。在这里插入图片描述

我们用一个函数在这里插入图片描述来估算这种可能性。是一个sigmoid函数,函数图像如下:

在这里插入图片描述

当计算出的s得分越高,越接近1,患病的可能性越大。当得分越低,越接近0,未得病的可能性大。

在这里插入图片描述
根据sigmoid函数,我们可以得出预测函数的表达式为:
在这里插入图片描述
假设因变量y服从伯努利分布,取值为0和1,那么可以得到下列两个式子:两者概率之和加起来为1。
在这里插入图片描述
策略最常用的方法是用一个损失函数(loss function)或代价函数(cost function)来度量预测错误程度,算法则是求解过程,接下来计算逻辑回归的损失函数:
将n位病人所有患病或不患病的可能性的概率乘以病人的特征向量x在相加:
在这里插入图片描述

在这里插入图片描述
我们将h换成w:


根据上面的式子,给定一定的样本之后,我们可以构造出似然函数,然后可以使用极大似然估计的思想来求解参数。但是,为了满足最小化风险理论,我们可以转化为最小化风险化理论,最大化似然函数其实就等价于最小化负的似然函数。就是利用已知的样本分布,找到最有可能(即最大概率)导致这种分布的参数值;或者说是什么样的参数才能使我们观测到目前这组数据的概率最大。首先,根据上面的假设,写出相应的极大似然函数(假定有N样本):
在这里插入图片描述
现在我们要找到一个w使得Ein最小,我们求这个函数的梯度,然后找到梯度等于0的点,这种方式适用于函数是平滑,可微分的曲线。现在计算梯度:即Ein对w进行求微分。
在这里插入图片描述
ω的更新方式为:
在这里插入图片描述
进一步变成:
在这里插入图片描述

3、正则化与模型评估指标

正则化(regularization),是指在线性代数理论中,不适定问题通常是由一组线性代数方程定义的,而且这组方程组通常来源于有着很大的条件数的不适定反问题。大条件数意味着舍入误差或其它误差会严重地影响问题的结果。
这个时候我们会在经验风险上加一个正则化项。
一般具有如下形式:
在这里插入图片描述
其中,第一项是经验风险,第二项是正则化项,在这里插入图片描述为调整两者之间关系的系数。

模型评估是模型开发过程的不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。
具体的评估指标:评估指标总结

4、逻辑回归的优缺点

逻辑回归是解决工业规模问题最流行的算法。在工业应用上,如果需要分类的数据拥有很多有意义的特征,每个特征都对最后的分类结果有或多或少的影响,那么最简单最有效的办法就是将这些特征线性加权,一起参与到决策过程中。比如预测广告的点击率,从原始数据集中筛选出符合某种要求的有用的子数据集等等。

优点:
1)适合需要得到一个分类概率的场景。
2)计算代价不高,容易理解实现。LR在时间和内存需求上相当高效。它可以应用于分布式数据,并且还有在线算法实现,用较少的资源处理大型数据。
3)LR对于数据中小噪声的鲁棒性很好,并且不会受到轻微的多重共线性的特别影响。(严重的多重共线性则可以使用逻辑回归结合L2正则化来解决,但是若要得到一个简约模型,L2正则化并不是最好的选择,因为它建立的模型涵盖了全部的特征。)

缺点:
1)容易欠拟合,分类精度不高。
2)数据特征有缺失或者特征空间很大时表现效果并不好。

5、样本不均衡问题解决办法

不均衡问题:大部分分类任务中,各类别下的数据个数基本上不可能完全相等,但是一点点差异是不会产生任何影响与问题的。

在现实中有很多类别不均衡问题,它是常见的,并且也是合理的,符合人们期望的。如,在欺诈交易识别中,属于欺诈交易的应该是很少部分,即绝大部分交易是正常的,只有极少部分的交易属于欺诈交易。这就是一个正常的类别不均衡问题。又如,在客户流失的数据集中,绝大部分的客户是会继续享受其服务的(非流失对象),只有极少数部分的客户不会再继续享受其服务(流失对象)。一般而已,如果类别不平衡比例超过4:1,那么其分类器会大大地因为数据不平衡性而无法满足分类要求的。因此在构建分类模型之前,需要对分类不均衡性问题进行处理。
  
  在前面,我们使用准确度这个指标来评价分类质量,可以看出,在类别不均衡时,准确度这个评价指标并不能work。因为分类器将所有的样本都分类到大类下面时,该指标值仍然会很高。即,该分类器偏向了大类这个类别的数据。

解决方法

6、sklearn参数

在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章