逻辑斯谛分布
设X 是连续随机变量,X 服从逻辑斯谛分布是指X 具有下列分布函数和密度函数:
分布函数
F(x)=P(X≤x)=11+e−(x−μ)/γ
密度函数
f(x)=F′(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2
式中,
μ 为位置参数,
γ 为形状参数。
其分布函数是S形函数,其特点是当x趋于无穷大时,概率值趋于1;当x趋于无穷小时,概率值趋于0.
逻辑斯谛回归模型
逻辑斯谛回归模型是由以下条件概率分布表示的分类模型,可用于二类或多类分类。
P(Y=k|x)=exp(wk⋅x)1+∑K−1i=1exp(wk⋅x),k=1,2,...,K−1
P(Y=K|x)=11+∑K−1i=1exp(wk⋅x)
式中,x 为输入特征,w 为特征的权值向量。
逻辑斯谛回归比较两个条件概率值的大小,将实例x 分到概率值较大的那一类。
补充:
机率:一个事件的机率是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率为p,那么该事件的机率为p1−p ,该事件的对数机率是
logit(p)=logp1−p
在逻辑斯谛回归模型中,输出Y=1的对数机率为
logit(P(Y=1|x))=logP(Y=1|x)1−P(Y=1|x)=w⋅x
即输出Y=1的对数机率是由输入x的线性函数表示的模型
模型参数估计
对于给定的训练集T={(x1,y1),(x2,y2),...,(xN,yN)} ,其中,xi∈Rn ,yi∈{0,1} 。可以应用极大似然估计法估计模型参数w ,从而得到逻辑斯谛回归模型。
设:P(Y=1|x)=π(x) , P(Y=0|x)=1−π(x)
其似然函数为
∏i=1N[π(xi)]yi[1−π(xi)]1−yi
其对数似然函数为
L(w)=∑i=1N[yilogπ(xi)+(1−yi)log(1−π(xi))]=∑i=1N[yilogπ(xi)1−π(xi)+log(1−π(xi))]=∑i=1N[yi(w⋅xi)−log(1+exp(w⋅xi))]
对
L(w) 求极大值,即问题转变为以对数似然函数为目标函数的最优化问题,通常采用梯度下降法或拟牛顿法可得到
w 的估计值
w^ ,则学习到的逻辑斯谛回归模型为
P(Y=1|x)=exp(w^⋅x)1+exp(w^⋅x)
P(Y=0|x)=11+exp(w^⋅x)
结论
应用场景:
二分类问题:
邮件:垃圾邮件/非垃圾邮件
在线交易:是否欺诈(是/否)
肿瘤:恶性/良性
多分类问题:
电子邮件分类/标注: 工作邮件,朋友邮件,家庭邮件,爱好邮件
医疗图表(medical diagrams): 没有生病,着凉,流感
天气:晴天,多云,雨,雪
logistic回归一般用于类别之前有联系的多分类问题
类别之间互斥则一般选择softmax回归
优点:
1.实现简单
2.分类时计算量非常小,速度很快,存储资源低;
缺点:
1.容易欠拟合,一般准确度不太高
2.必须线性可分;
参考资料
Coursera公开课笔记: 斯坦福大学机器学习第六课“逻辑回归(Logistic Regression)”
统计学习方法,李航著,清华大学出版社