【算法2】Logistic回归

原創

2020-06-16 10:00

关于Logistic回归，在《【R】基于Logistic回归的初始信用评级》做过粗略的介绍，看此文时可结合该文章，帮助理解。这里借鉴李航老师的《统计学习方法》 再补充一下。

1 logistic分布

在统计学中，研究任何对象，都应该先摸透该对象的数据服从什么样的分布。在个人看来，数据的不同分布使得数据具有不同的性质，也就需要采用不同的技术进行研究。那么，logistic回归也不例外。
设 L是连续随机变量，L服从逻辑斯谛分布是指L 具有下列分布函数和密函数：
$F(l)=P(L <=l)=\frac{1}{(1+e^{-(l-u)/r})}$
$f(l)=F^\prime(l)=P(L <=l)=\frac{e^{-(l-u)/r}}{r(1+e^{-(l-u)/r})^2}$
公式中， $u$ 为位置参数， $r > 0$ 为形状参数。
$logistic$ 分布的密度函数 $f(l)$ 和分布函数 $F(l)$ 的图形下图。分布函数是一个 $logistic$ 函数，图形是一条S形曲 $( sigmoid curve)$ ,点 $(u,\frac{1}{2})$ 为中心对称。

曲线值阈为 $(0，1)$ ，在点 $(u,\frac{1}{2})$ 附近变化快，离中心点越远，变化趋于平缓。

2 binomial logistic 回归

$binomial logistic$ 回归模型是一类二分类模型，由条件概率分布 $P(Y|L)$ 表示，形式为参数化的逻辑斯谛分布。这里，随机变量 $L$ 取值为实数，随机变量 $Y$ 取值为 1 或 0。通过监督学习的方法来估计模型参数。~~二项逻辑斯回归模型~~ 是如下的件率布：

$P(Y=1|l)=\frac{exp^{(wl+b)}}{1+exp^{(wl+b)}}$
$P(Y=0|l)=\frac{1}{1+exp^{(wl+b)}}$
这里, $l ∊ R^n$ 是输入， $Y ∊{ [0, 1]}$ 是输出， $w ∊ R^n$ 和 $b ∊ R$ 是参数， $w$ 称为权值向量， $b$ 称为偏置， $w· l$ 为 $w$ 和 $l$ 的内积。
探索 $logistic$ 回归模型的特点。一个事件的机率 $（ odds）$ 是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是 p 那么该事件的机率是,该事件的对数机率 $（ log odds）$ 或 $logit$ 函数是
$logit(p)=log\frac{p}{1-p}$
对 $logistic$ 而言，由~~二项逻辑斯回归模型~~ 得
$logit(p)=log\frac{p(Y=1|l)}{1-p(Y=1|l)}=wl.$
也可以这样来解读，在 $binomial logistic$ 回归模型中输出 $Y=1$ 的对数机率是输入 $l$ 的线性函数。将 $wl$ 转化为概率则有：
$P(Y=1|l)=\frac{exp^{(wl)}}{1-exp^{(wl)}}.$
这就是 $binomial logistic$ 回归模型。

3 参数的估计

$logistic$ 回归模型学习时，存在的训练数据集 $D ＝{( l1， y1),( l2， y2),…,( l_N, y_N)}$ ，其中， $l_i ∊ R^n$ ， $y_i ∊[ 0, 1]$ ，可以应用极大似然估计法估计模型参数 $w$ ，从而得到 $logistic$ 回归模型。设：
$P(Y=1|l)=\varPsi(l) ,P(Y=0|l)=1-\varPsi(l)$
得似然函数：
$\prod_{i=1}^N [\varPsi(l_i)]^{y_i}[1-\varPsi(l_i)]^{1-y_i}$

得对数似然函数：
$LG(w)=\sum_{k=1}^N [y_ilog\varPsi(l_i)+(1-y_i)log(1-\varPsi(l_i))]$
$=\sum_{k=1}^N [y_ilog\frac{\varPsi(l_i)}{1-\varPsi(l_i)}+log(1-\varPsi(l_i))]$
$=\sum_{k=1}^N [y_i(w*l_i)-log(1+(w*l_i))]$
求解 $LG(w)$ 的极大值，得到 $w$ 的估计值 $\widehat{w}$ 。这样合理的将问题转化为了以对数似然函数作为目标函数最优问题。 $logistic$ 回归学习中通常采用的方法是梯度下降法、拟牛顿法。

4 multiterm logistic回归

对于多项逻辑回归（ $multiterm logistic$ ）,说的是当Y的输出不在只是二分类 $[0,1]$ ,而是形如 $[a,b,c,......,f,g,......]$ 的多分类离散型。现在在这里不过多阐述，后期有时间会补上。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【算法2】Logistic回归

1 logistic分布

2 binomial logistic 回归

3 参数的估计

4 multiterm logistic回归

通过HPA+CronHPA组合应对业务复杂弹性伸缩场景

【MYSQL】存儲過程在批量處理數據表中的應用

【EXCEL】在數據分析中的使用三

【算法2】Logistic迴歸

【Spark】DataFrame

【算法6】K-Means聚類

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結