逻辑回归

一、逻辑回归介绍

逻辑回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。(摘自百度百科)

Logistic回归常用于预测离散型目标变量,经典的二分类算法,(也可做多分类算法)它的优点:稳定,应用广泛;解释性强,易于理解。缺点:容易欠拟合,分类精度可能不高。如果拿到一个分类任务,我们可以先用逻辑回归做个基础模型,做好后,再用其他算法优化。另外逻辑回归的决策边界是可以非线性的。 

二、Sigmoid函数

为了实现Logistic回归分类器,我们可以将每个特征乘上一个回归系数再相加等到一个线性回归预测值(z=w_0x_0+w_1x_1+...+w_nx_n),而这个预测值是(- \infty,+\infty)的实数,那么如何将这个预测值映射出我们想要的分类结果呢?这就连想到Sigmoid函数,公式:\sigma (z)=\frac{1}{1+e^-^z}

由上图两个都是sigmoid函数,其自变量z取值为任意实数,值域都在[0,1]之间。这不就是我们想要的吗?我们在线性回归中得到的预测值映射到sigmoid函数,得到由值到概率的转换,得到的概率大于0.5的归为一类,小于0.5的归为一类。所以,Logistic回归也可看成是一种概率估计。下图座标尺度足够大,可以看到在x=0处,Sigmoid函数看起来很想阶跃函数。(海维塞德阶跃函数:函数在跳跃点上从0瞬间跳跃到1)

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章