&&机器学习实战&&Logistic回归

1.概述

假设现在有一些数据点,我们用一条直线对这些点进行拟合,该拟合过程就称作回归。利用Logisti回归进行分类的主要思想是:根据现有的数据对分类边界线建立回归公式,以此进行分类。这里的回归一词源于最佳拟合,表示要找到最佳拟合参数集。

这个二值型输出分类器的数学原理:

 本章首先阐述logistic回归的定义,然后介绍一些最优化算法,其中包括基本的梯度上升法和一个改进的随机梯度上升法,这些最优化算法将用于分类器的训练。

优点:计算代价不高,易于理解和实现。

缺点:容易欠拟合,分类精度可能不高。

适用数据类型:数值型和标称型数据。

海维塞德阶越函数和sigmoid函数:

确定了分类器的函数形式之后,现在的问题变成了:最佳回归系数是多少?如何确定它们的大小?

2.基于最优化方法的最佳回归系数确定

3.梯度上升法

基本思想:要找到某函数的最大值,最好的方法是沿着该函数的梯度方向探寻。

梯度上升算法和梯度下降算法是同一个算法。

 

梯度上升算法伪代码:

3.随机梯度上升算法

梯度上升算法在每次更新回归系数时都需要遍历整个数据集,该方法在数据量大时,计算复杂度也太高。一种改进方法是一次仅用一个样本点来更新回归系数,该方法称为随机梯度上升算法。由于可以在新样本到来时对分类器进行增量式更新,因而随机梯度上升算法是一个在线学习算法。与在线学习相对应,一次处理所有数据被称作是批处理。

随机梯度算法的伪代码:

5.小结

logistic回归的目的是寻找一个非线性函数sigmoid的最佳拟合参数,求解过程可以由最优化算法来完成。在最优化算法中,最常用的就是梯度上升算法,而梯度上升算法又可以简化为随机梯度上升算法。

随机梯度上升算法在新书据到来时就完成参数更新,而不需要重新读取整个数据集来进行批处理运算。

机器学习的一个重要问题就是如何处理缺失数据。这个问题没有标准答案,取决于实际应用中的需求。

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章