逻辑回归笔记

原創

毛懋

2020-07-05 05:24

概述

Logistic regression is a method for classifying data into discrete outcomes.
逻辑回归将数据归类为离散的结果并输出。

逻辑回归虽然名为“回归”，但它解决的其实是分类问题。以二分类问题为例，习惯上把我们关注的某一现象的存在归为y=1（如垃圾邮件、恶性肿瘤细胞），反之则为y=0。

为什么不用线性回归

.利用线性回归解决分类问题通常不是好的方法，主要有两个原因：
1. 如图1所示，线性回归的参数很容易受到极端值的影响,容易得到不好的假设函数。
2. 比如进行2分类（binary classifying）问题，假设y的值ϵ{0,1},但是线性回归模型的假设函数计算出来的函数值会远大于1或远小于0。

假设函数（Hypothesis Funciton）

针对一个分类问题
想要： $0≤h_θ (x)≤1$
对假设函数h_θ (x)输出结果的解释：y=1的概率。
若计算出 $h_θ (x)$ =0.7，则表示对输入x，输出y=1的概率为0.7。

logistic函数

logistic函数可以很好避免线性回归的第2点不足。
逻辑回归（Logistic Regression）的函数值在区间[0,1]中。
Sigmoid函数和Logistic函数通常是指同一个函数:g(z)= 1/(1+ $e^{-z}$ ) ，
进一步地，常用的Logistic函数的形式： ${h_θ (x)}$ = ${g(θ^T x)}$ = 1/(1+ $e ^{-θ^T x}$ )

该函数具有如下较好性质： ${g'(z) = g(z)(1-g(z)) }$ ${\lim_{x \to -\infty}} \frac{1}{1+e^{-z}}= 0$ ${\lim_{x\to +\infty} }\frac{1}{1+e^{-z}}= 1$ ${g(0)= 0.5}$

决策边界（Decision Boundary）

类似于高中学的线性规划或者非线性规划的边界，根据函数不等式反解出来。
$h_θ (x)= g(θ^T x)$ (两个x是不同的)，由于函数是单调递增的，
$0.5≤h_θ (x)<1⇔ x≥0$ $0<h_θ (x)<0.5⇔ x<0$
所以当进行二分类时，容易想到利用0作为阈值（threshold）。

根据假设函数（hypothesis function）的设想以及概率的意义（假设函数计算的可以不严谨地理解为概率）
$当h_θ (x)≥0.5⇔ x≥0⇒预测y=1$ $当h_θ (x)<0.5⇔ x<0⇒预测y=0$ 当要确定h_θ (x)≥0.5的范围，只要确定x≥0的范围即可。

eg1：线性决策边界
$h_θ (x)=g(θ_0+θ_1 x_1+θ_2 x_2)$ 假设 $[θ_0,θ_1,θ_2]$ =[-3,1,1]。想要预测y=1
只需要 $g({θ_0+θ_1 x_1+θ_2 x_2} )=g(-3+x_1+x_2 )≥0.5$ 只需要 $-3+x_1+x_2≥0$ 则直线 $l:-3+x_1+x_2$ 是决策边界，当-3+x_1+x_2≥0时，y预测为1。

eg2：非线性决策边界
$h_θ (x)=g(θ_0+θ_1 x_1+θ_2 x_2+θ_3 x_3^2+θ_4 x_4^2)$
$[θ_0,θ_1,θ_2,θ_3,θ_4]=[-1,0,0,1,1]$
想要预测y=1,只需要 $g(θ_0+θ_1 x_1+θ_2 x_2+θ_3 x_3^2+θ_4 x_4^2)=g(-1+x_3^2+x_4^2 )≥0.5$ 只需要 $-1+x_3^2+x_4^2≥0$ 则 $-1+x_3^2+x_4^2=0$ 是决策边界，当 $-1+x_3^2+x_4^2≥0$ 时，y预测为1。

代价函数（Cost Function）

如果采用之前的均方误差（Mean Squared Error）公式: $J(θ)=\frac1m \sum_{i=1}^m\frac12 (h_θ (x^{(i)} )-y^{(i)})^2$ 把 $J(\theta)$ 改写成更一般的形式
${ J(θ)=\frac1m \sum_{i=1}^mCost(h_θ (x^{(i)} ),y^{(i)})}$ ${ Cost(h_θ (x^{(i)} ),y^{(i)})=}\frac12 (h_θ (x^{(i)} )-y^{(i)})^2$ ${J(\theta)}$ 是非凸函数，拥有多个局部最小值，使用梯度下降法不一定能收敛到全局最小。
下面介绍一个能使 ${J(θ)}$ 为凸函数的Cost函数。

$Cost(h_θ (x),y)=\begin{cases}-log⁡(h_θ (x)), &y= 1 \cr-log⁡(1-h_θ (x)) , &y=0\end{cases}$

当y=1时，从Cost函数的图像中不难看出，当y=1时，Cost = 0，说明当实际值为1，预测值为1时，付出的代价为0；当y从右边趋于0时，Cost趋于正无穷，说明当实际值为1，预测值为0，付出的代价非常大。这符合Cost函数的性质。
当y=0时，做类似解释。
由于原来的Cost函数为分段函数，不好处理，构造出等价的Cost函数，即
${Cost= y^{(i)} log⁡(h_θ (x^{(i)}))+(1-y^{(i)} )log⁡(1-h_θ (x^{(i)} )) (y只取0,1) }$

梯度下降及优化算法

$θ_j←θ_j-α\frac ∂{∂θ_j } J(θ)$ i.e. $θ_j←θ_j-α \frac1m \sum_{i=1}^m(h_θ (x^{(i) })-y^{(i)}) x^{(i)}_j (同时更新所有θ_j)$ $h_θ (x)= \frac1{1+e^{-{θ^Tx}} }$

优化算法：
共轭梯度（Conjugate gradient）、BFGS、L-BFGS等方法。
优点：1可以自动寻找适合的学习率α
2 能够更快地收敛到最优解
缺点:算法复杂

多分类问题

比如要把整个数据集分成3类，则先挑出第一类，其余两类视为一类，重复操作两次。

$h_θ^{(i)}(x)=P(y=i |x;θ),(i=1,2,3).$ 所以这里有三个分类器
针对每个类别 i，训练一个逻辑回归分类器 $h_θ^{(i)}(x)$ 去预测y=i的概率。
针对一个新的输入x，预测x的类别i，
i $s.t.$
$\max_i⁡h_θ^{(i)} (x)$
可以理解为取i , s.t $max{P(y=i)}$ 。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

逻辑回归笔记

概述

为什么不用线性回归

假设函数（Hypothesis Funciton）

logistic函数

决策边界（Decision Boundary）

代价函数（Cost Function）

梯度下降及优化算法

多分类问题

python gdal 安装使用（Windows， python 3.6.8）

遞歸深度優先搜索（DFS）常見的一個bug

探討"特徵縮放"

解決方法：關於維基百科無法顯示圖片或者Coursera無法看視頻

算法收斂性、梯度下降與正規方程組、凸函數性質（機器學習先修知識，方便理解）

Web of Science(WOS)導出參考文獻的格式縮略詞說明

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

逻辑回归 笔记

概述

为什么不用线性回归

假设函数（Hypothesis Funciton）

logistic函数

决策边界（Decision Boundary）

代价函数（Cost Function）

梯度下降及优化算法

多分类问题

逻辑回归笔记