「机器学习_5」逻辑回归(Logistic Regression )

学习逻辑回归需要清楚的几件事:假设函数怎么用(怎么预测),决策边界怎么用(一般取0.5),损失函数如果计算(因为要取最小),优化方法(重新计算各个权重)

建议:我阅读的英文参考资料的相关内容除了公式我并没有往上发布。但是我会放到我的下载资料中,建议,想彻底理解这几个内容的,如果不想直接从公式推导入手,可以考虑看下具体的例子,就会明白其中的含义。

 

前言

 本文主要介绍逻辑回归的基础知识,文章小节安排如下:
 1)逻辑回归定义
 2)假设函数(Hypothesis function)
 3)决策边界(Decision Boundary)
 4)代价函数(Cost Function)
 5)优化方法

 

1. 逻辑回归定义

1.1 定义 & 适用条件

逻辑回归是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。 注意,这里用的是“可能性”,而非数学上的“概率”,logisitc回归的结果并非数学定义中的概率值,不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和,而非直接相乘。

1.2 逻辑回归 & 线性回归

逻辑回归(Logistic Regression)与线性回归(Linear Regression)都是一种广义线性模型(generalized linear model)。

逻辑回归假设因变量 y 服从伯努利分布(0-1分布),而线性回归假设因变量 y 服从高斯分布(正太分布 normal disturbution)。

因此与线性回归有很多相同之处,去除Sigmoid映射函数的话,逻辑回归算法就是一个线性回归。可以说,逻辑回归是以线性回归为理论支持的,但是逻辑回归通过Sigmoid函数引入了非线性因素,因此可以轻松处理0/1分类问题

 

2.假设函数(Hypothesis function)

 逻辑回归的假设函数形式如下:

这个函数称为Sigmoid函数,也称为逻辑函数(Logistic function),其函数曲线如下:

    从上图可以看到sigmoid函数是一个s形的曲线,它的取值在[0, 1]之间,在远离0的地方函数的值会很快接近0/1。这个性质使我们能够以概率的方式来解释。
 一个机器学习的模型,实际上是把决策函数限定在某一组条件下,这组限定条件就决定了模型的假设空间。当然,我们还希望这组限定条件简单而合理。而逻辑回归模型所做的假设是:   
       

这里的 g(h) 是上边提到的 sigmoid 函数,相应的决策函数为:

       

选择0.5作为阈值是一个一般的做法,实际应用时特定的情况可以选择不同阈值,如果对正例的判别准确性要求高,可以选择阈值大一些,对正例的召回要求高,则可以选择阈值小一些。

 

3.决策边界(Decision Boundary)

 决策边界,也称为决策面,是用于在N维空间,将不同类别样本分开的平面或曲面。
 首先看Andrew Ng老师课程上的两张图:
 线性决策边界:

 决策边界:
 
 
 非线性决策边界:


 决策边界:
 

   上面两张图很清晰的解释了什么是决策边界,决策边界其实就是一个方程,在逻辑回归中,决策边界由theta’X=0定义。
 要注意理解假设函数和决策边界函数的区别与联系。决策边界是假设函数的属性,由假设函数的参数决定。
 在逻辑回归中,假设函数(h=g(z))用于计算样本属于某类别的可能性;决策函数(h=1(g(z)>0.5))用于计算(给出)样本的类别;决策边界(θ^Tx=0)是一个方程,用于标识出分类函数(模型)的分类边界。

4. 代价函数

代价函数和损失函数实质应该是一回事,但是我看的英文参考资料中,损失函数公式为第二个。

 

 

5.优化方法

 在逻辑回归中,依然使用梯度下降法对代价函数进行优化,完整形式如下:

但是我阅读的材料中,优化方法是处理的log likelihood wrt。所以可以参考下面的公式

其实该优化办法的实质就是重新计算各个features的权重。

 

 

转载:

https://zhuanlan.zhihu.com/p/28408516

https://blog.csdn.net/walilk/article/details/51107380

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章