关于Logistic回归,在《【R】基于Logistic回归的初始信用评级》做过粗略的介绍,看此文时可结合该文章,帮助理解。这里借鉴李航老师的《统计学习方法》 再补充一下。
1 logistic分布
在统计学中,研究任何对象,都应该先摸透该对象的数据服从什么样的分布。在个人看来,数据的不同分布使得数据具有不同的性质,也就需要采用不同的技术进行研究。那么,logistic回归也不例外。
设 L是连续随机变量,L服从逻辑斯谛分布是指L 具有下列分布函数和密函数:
F(l)=P(L<=l)=(1+e−(l−u)/r)1
f(l)=F′(l)=P(L<=l)=r(1+e−(l−u)/r)2e−(l−u)/r
公式中,u为位置参数,r>0为形状参数。
logistic分布的密度函数f(l) 和 分布 函数 F(l)的 图形下图。分布函数是一个logistic函数,图形是 一条S形曲(sigmoidcurve),点(u,21)为中心对称。
曲线值阈为(0,1),在点(u,21)附近变化快,离中心点越远,变化趋于平缓。
2 binomial logistic 回归
binomiallogistic 回归模型是一类二分类模型,由条件概率分布P(Y∣L)表示,形式为参数化的逻辑斯谛分布。这里,随机变量L取值为实数,随机 变量Y取值为 1 或 0。通过监督学习的方法来估计模型参数。二项逻辑斯回归模型 是如下的件率布:
P(Y=1∣l)=1+exp(wl+b)exp(wl+b)
P(Y=0∣l)=1+exp(wl+b)1
这里,l∊Rn 是 输入,Y∊[0,1] 是 输出,w∊Rn 和b∊R是 参数,w 称为 权值 向量,b 称为 偏 置,w⋅l 为 w 和 l 的内积。
探索logistic回归模型的特点。一个事件的机率(odds) 是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是 p 那么该事件的机率是,该事件的对数机率(logodds) 或logit 函数是
logit(p)=log1−pp
对logistic而言,由二项逻辑斯回归模型 得
logit(p)=log1−p(Y=1∣l)p(Y=1∣l)=wl.
也可以这样来解读,在binomiallogistic 回归模型中输出Y=1的对数机率是输入l的线性函数。将wl 转化为概率则有:
P(Y=1∣l)=1−exp(wl)exp(wl).
这就是binomiallogistic 回归模型。
3 参数的估计
logistic回归模型学习时,存在的训练数据集 D=(l1,y1),(l2,y2),…,(lN,yN), 其中, li∊Rn, yi∊[0,1],可以应用极大似 然估计法估计模型参数w,从而得到logistic回归模型。设:
P(Y=1∣l)=Ψ(l),P(Y=0∣l)=1−Ψ(l)
得似然函数:
i=1∏N[Ψ(li)]yi[1−Ψ(li)]1−yi
得对数似然函数:
LG(w)=k=1∑N[yilogΨ(li)+(1−yi)log(1−Ψ(li))]
=k=1∑N[yilog1−Ψ(li)Ψ(li)+log(1−Ψ(li))]
=k=1∑N[yi(w∗li)−log(1+(w∗li))]
求解LG(w)的极大值,得到w的估计值w。这样合理的将问题转化为了以对数似然函数作为目标函数最优问题。logistic回归学习 中通常采用的方法是 梯度下降法、拟牛顿法。
4 multiterm logistic回归
对于多项逻辑回归(multitermlogistic),说的是当Y的输出不在只是二分类[0,1],而是形如[a,b,c,......,f,g,......]的多分类离散型。现在在这里不过多阐述,后期有时间会补上。