机器学习—逻辑回归—初级算法梳理02

1、逻辑回归与线性回归相比较

虽然逻辑回归能够用于分类，不过其本质还是线性回归。它仅在线性回归的基础上，在特征到结果的映射中加入了一层sigmoid函数（非线性）映射，即先把特征线性求和，然后使用sigmoid函数来预测。

这主要是由于线性回归在整个实数域内敏感度一致，而分类范围，需要在[0,1]之内。而逻辑回归就是一种减小预测范围，将预测值限定为[0,1]间的一种回归模型，其回归方程与回归曲线如下图所示。逻辑曲线在z=0时，十分敏感，在z>>0或z<<0处，都不敏感，将预测值限定为(0,1)。

1、LR在线性回归的实数范围输出值上施加sigmoid函数将值收敛到0~1范围, 其目标函数也因此从差平方和函数变为对数损失函数, 以提供最优化所需导数（sigmoid函数是softmax函数的二元特例, 其导数均为函数值的f*(1-f)形式）。请注意, LR往往是解决二元0/1分类问题的, 只是它和线性回归耦合太紧, 不自觉也冠了个回归的名字(马甲无处不在). 若要求多元分类,就要把sigmoid换成大名鼎鼎的softmax了。

2、首先逻辑回归和线性回归首先都是广义的线性回归，其次经典线性模型的优化目标函数是最小二乘，而逻辑回归则是似然函数，另外线性回归在整个实数域范围内进行预测，敏感度一致，而分类范围，需要在[0,1]。逻辑回归就是一种减小预测范围，将预测值限定为[0,1]间的一种回归模型，因而对于这类问题来说，逻辑回归的鲁棒性比线性回归的要好。

3、逻辑回归的模型本质上是一个线性回归模型，逻辑回归都是以线性回归为理论支持的。但线性回归模型无法做到sigmoid的非线性形式，sigmoid可以轻松处理0/1分类问题。

逻辑回归给出离散的输出结果，然而线性回归给出的是连续的输出结果，

参考链接：线性回归和逻辑回归

2、逻辑回归

当医院的病人，我们通过病人的各种特征来预测病人患上癌症的可能性为多少。这个结果值在[0,1]之间。

目标函数：

对于每一个x表示为一个向量。即x=(x0，x1，x2，…，xd)表示病人的所有特征，计算一个病人可能的患病机率s。

我们用一个函数来估算这种可能性。是一个sigmoid函数，函数图像如下：

当计算出的s得分越高，越接近1，患病的可能性越大。当得分越低，越接近0，未得病的可能性大。

根据sigmoid函数，我们可以得出预测函数的表达式为：

假设因变量y服从伯努利分布，取值为0和1，那么可以得到下列两个式子：两者概率之和加起来为1。

策略最常用的方法是用一个损失函数(loss function)或代价函数(cost function)来度量预测错误程度，算法则是求解过程，接下来计算逻辑回归的损失函数：
将n位病人所有患病或不患病的可能性的概率乘以病人的特征向量x在相加：

我们将h换成w：

根据上面的式子，给定一定的样本之后，我们可以构造出似然函数，然后可以使用极大似然估计的思想来求解参数。但是，为了满足最小化风险理论，我们可以转化为最小化风险化理论，最大化似然函数其实就等价于最小化负的似然函数。就是利用已知的样本分布，找到最有可能（即最大概率）导致这种分布的参数值；或者说是什么样的参数才能使我们观测到目前这组数据的概率最大。首先，根据上面的假设，写出相应的极大似然函数（假定有N样本）：

现在我们要找到一个w使得Ein最小，我们求这个函数的梯度，然后找到梯度等于0的点，这种方式适用于函数是平滑，可微分的曲线。现在计算梯度：即Ein对w进行求微分。

ω的更新方式为：

进一步变成：

3、正则化与模型评估指标

正则化(regularization)，是指在线性代数理论中，不适定问题通常是由一组线性代数方程定义的，而且这组方程组通常来源于有着很大的条件数的不适定反问题。大条件数意味着舍入误差或其它误差会严重地影响问题的结果。
这个时候我们会在经验风险上加一个正则化项。
一般具有如下形式：

其中，第一项是经验风险，第二项是正则化项，为调整两者之间关系的系数。

模型评估是模型开发过程的不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。
具体的评估指标：评估指标总结

4、逻辑回归的优缺点

逻辑回归是解决工业规模问题最流行的算法。在工业应用上，如果需要分类的数据拥有很多有意义的特征，每个特征都对最后的分类结果有或多或少的影响，那么最简单最有效的办法就是将这些特征线性加权，一起参与到决策过程中。比如预测广告的点击率，从原始数据集中筛选出符合某种要求的有用的子数据集等等。

优点：
1）适合需要得到一个分类概率的场景。
2）计算代价不高，容易理解实现。LR在时间和内存需求上相当高效。它可以应用于分布式数据，并且还有在线算法实现，用较少的资源处理大型数据。
3）LR对于数据中小噪声的鲁棒性很好，并且不会受到轻微的多重共线性的特别影响。（严重的多重共线性则可以使用逻辑回归结合L2正则化来解决，但是若要得到一个简约模型，L2正则化并不是最好的选择，因为它建立的模型涵盖了全部的特征。）

缺点：
1）容易欠拟合，分类精度不高。
2）数据特征有缺失或者特征空间很大时表现效果并不好。

5、样本不均衡问题解决办法

不均衡问题：大部分分类任务中，各类别下的数据个数基本上不可能完全相等，但是一点点差异是不会产生任何影响与问题的。

在现实中有很多类别不均衡问题，它是常见的，并且也是合理的，符合人们期望的。如，在欺诈交易识别中，属于欺诈交易的应该是很少部分，即绝大部分交易是正常的，只有极少部分的交易属于欺诈交易。这就是一个正常的类别不均衡问题。又如，在客户流失的数据集中，绝大部分的客户是会继续享受其服务的（非流失对象），只有极少数部分的客户不会再继续享受其服务（流失对象）。一般而已，如果类别不平衡比例超过4:1，那么其分类器会大大地因为数据不平衡性而无法满足分类要求的。因此在构建分类模型之前，需要对分类不均衡性问题进行处理。

在前面，我们使用准确度这个指标来评价分类质量，可以看出，在类别不均衡时，准确度这个评价指标并不能work。因为分类器将所有的样本都分类到大类下面时，该指标值仍然会很高。即，该分类器偏向了大类这个类别的数据。

解决方法

机器学习—逻辑回归—初级算法梳理02

1、逻辑回归与线性回归相比较

2、逻辑回归

3、正则化与模型评估指标

4、逻辑回归的优缺点

5、样本不均衡问题解决办法

6、sklearn参数

钉钉打卡速度慢

Nginx R31 doc 官方文档-01-nginx 如何安装

Qt/C++音视频开发74-合并标签图形/生成yolo运算结果图形/文字和图形合并成一个/水印滤镜

挑战程序设计竞赛 2.2章习题 POJ - 3617 Best Cow Line 贪心

字节面试：MySQL什么时候锁表？如何防止锁表？

.NET8连接SQL SERVER 2008 R2 报：证书链是由不受信任的颁发机构颁发的

golang开发环境搭建(win10)

python计算机视觉学习笔记——PIL库的用法

Golang初学：获取程序内存使用情况，std runtime

TCP、UDP、IP的包頭

劍指offer--所有鏈表題型題解及代碼，Java語言

機器學習—邏輯迴歸—初級算法梳理02

KNN(上)

計算機進程死鎖

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結