【算法2】Logistic迴歸

原創

2020-06-16 10:00

關於Logistic迴歸，在《【R】基於Logistic迴歸的初始信用評級》做過粗略的介紹，看此文時可結合該文章，幫助理解。這裏借鑑李航老師的《統計學習方法》 再補充一下。

1 logistic分佈

在統計學中，研究任何對象，都應該先摸透該對象的數據服從什麼樣的分佈。在個人看來，數據的不同分佈使得數據具有不同的性質，也就需要採用不同的技術進行研究。那麼，logistic迴歸也不例外。
設 L是連續隨機變量，L服從邏輯斯諦分佈是指L 具有下列分佈函數和密函數：
$F(l)=P(L <=l)=\frac{1}{(1+e^{-(l-u)/r})}$
$f(l)=F^\prime(l)=P(L <=l)=\frac{e^{-(l-u)/r}}{r(1+e^{-(l-u)/r})^2}$
公式中， $u$ 爲位置參數， $r > 0$ 爲形狀參數。
$logistic$ 分佈的密度函數 $f(l)$ 和分佈函數 $F(l)$ 的圖形下圖。分佈函數是一個 $logistic$ 函數，圖形是一條S形曲 $( sigmoid curve)$ ,點 $(u,\frac{1}{2})$ 爲中心對稱。

曲線值閾爲 $(0，1)$ ，在點 $(u,\frac{1}{2})$ 附近變化快，離中心點越遠，變化趨於平緩。

2 binomial logistic 迴歸

$binomial logistic$ 迴歸模型是一類二分類模型，由條件概率分佈 $P(Y|L)$ 表示，形式爲參數化的邏輯斯諦分佈。這裏，隨機變量 $L$ 取值爲實數，隨機變量 $Y$ 取值爲 1 或 0。通過監督學習的方法來估計模型參數。~~二項邏輯斯迴歸模型~~ 是如下的件率布：

$P(Y=1|l)=\frac{exp^{(wl+b)}}{1+exp^{(wl+b)}}$
$P(Y=0|l)=\frac{1}{1+exp^{(wl+b)}}$
這裏, $l ∊ R^n$ 是輸入， $Y ∊{ [0, 1]}$ 是輸出， $w ∊ R^n$ 和 $b ∊ R$ 是參數， $w$ 稱爲權值向量， $b$ 稱爲偏置， $w· l$ 爲 $w$ 和 $l$ 的內積。
探索 $logistic$ 迴歸模型的特點。一個事件的機率 $（ odds）$ 是指該事件發生的概率與該事件不發生的概率的比值。如果事件發生的概率是 p 那麼該事件的機率是,該事件的對數機率 $（ log odds）$ 或 $logit$ 函數是
$logit(p)=log\frac{p}{1-p}$
對 $logistic$ 而言，由~~二項邏輯斯迴歸模型~~ 得
$logit(p)=log\frac{p(Y=1|l)}{1-p(Y=1|l)}=wl.$
也可以這樣來解讀，在 $binomial logistic$ 迴歸模型中輸出 $Y=1$ 的對數機率是輸入 $l$ 的線性函數。將 $wl$ 轉化爲概率則有：
$P(Y=1|l)=\frac{exp^{(wl)}}{1-exp^{(wl)}}.$
這就是 $binomial logistic$ 迴歸模型。

3 參數的估計

$logistic$ 迴歸模型學習時，存在的訓練數據集 $D ＝{( l1， y1),( l2， y2),…,( l_N, y_N)}$ ，其中， $l_i ∊ R^n$ ， $y_i ∊[ 0, 1]$ ，可以應用極大似然估計法估計模型參數 $w$ ，從而得到 $logistic$ 迴歸模型。設：
$P(Y=1|l)=\varPsi(l) ,P(Y=0|l)=1-\varPsi(l)$
得似然函數：
$\prod_{i=1}^N [\varPsi(l_i)]^{y_i}[1-\varPsi(l_i)]^{1-y_i}$

得對數似然函數：
$LG(w)=\sum_{k=1}^N [y_ilog\varPsi(l_i)+(1-y_i)log(1-\varPsi(l_i))]$
$=\sum_{k=1}^N [y_ilog\frac{\varPsi(l_i)}{1-\varPsi(l_i)}+log(1-\varPsi(l_i))]$
$=\sum_{k=1}^N [y_i(w*l_i)-log(1+(w*l_i))]$
求解 $LG(w)$ 的極大值，得到 $w$ 的估計值 $\widehat{w}$ 。這樣合理的將問題轉化爲了以對數似然函數作爲目標函數最優問題。 $logistic$ 迴歸學習中通常採用的方法是梯度下降法、擬牛頓法。

4 multiterm logistic迴歸

對於多項邏輯迴歸（ $multiterm logistic$ ）,說的是當Y的輸出不在只是二分類 $[0,1]$ ,而是形如 $[a,b,c,......,f,g,......]$ 的多分類離散型。現在在這裏不過多闡述，後期有時間會補上。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【算法2】Logistic迴歸

1 logistic分佈

2 binomial logistic 迴歸

3 參數的估計

4 multiterm logistic迴歸

【MYSQL】存儲過程在批量處理數據表中的應用

【EXCEL】在數據分析中的使用三

【算法2】Logistic迴歸

【Spark】DataFrame

【算法6】K-Means聚類

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結