關於Logistic迴歸,在《【R】基於Logistic迴歸的初始信用評級》做過粗略的介紹,看此文時可結合該文章,幫助理解。這裏借鑑李航老師的《統計學習方法》 再補充一下。
1 logistic分佈
在統計學中,研究任何對象,都應該先摸透該對象的數據服從什麼樣的分佈。在個人看來,數據的不同分佈使得數據具有不同的性質,也就需要採用不同的技術進行研究。那麼,logistic迴歸也不例外。
設 L是連續隨機變量,L服從邏輯斯諦分佈是指L 具有下列分佈函數和密函數:
F(l)=P(L<=l)=(1+e−(l−u)/r)1
f(l)=F′(l)=P(L<=l)=r(1+e−(l−u)/r)2e−(l−u)/r
公式中,u爲位置參數,r>0爲形狀參數。
logistic分佈的密度函數f(l) 和 分佈 函數 F(l)的 圖形下圖。分佈函數是一個logistic函數,圖形是 一條S形曲(sigmoidcurve),點(u,21)爲中心對稱。
曲線值閾爲(0,1),在點(u,21)附近變化快,離中心點越遠,變化趨於平緩。
2 binomial logistic 迴歸
binomiallogistic 迴歸模型是一類二分類模型,由條件概率分佈P(Y∣L)表示,形式爲參數化的邏輯斯諦分佈。這裏,隨機變量L取值爲實數,隨機 變量Y取值爲 1 或 0。通過監督學習的方法來估計模型參數。二項邏輯斯迴歸模型 是如下的件率布:
P(Y=1∣l)=1+exp(wl+b)exp(wl+b)
P(Y=0∣l)=1+exp(wl+b)1
這裏,l∊Rn 是 輸入,Y∊[0,1] 是 輸出,w∊Rn 和b∊R是 參數,w 稱爲 權值 向量,b 稱爲 偏 置,w⋅l 爲 w 和 l 的內積。
探索logistic迴歸模型的特點。一個事件的機率(odds) 是指該事件發生的概率與該事件不發生的概率的比值。如果事件發生的概率是 p 那麼該事件的機率是,該事件的對數機率(logodds) 或logit 函數是
logit(p)=log1−pp
對logistic而言,由二項邏輯斯迴歸模型 得
logit(p)=log1−p(Y=1∣l)p(Y=1∣l)=wl.
也可以這樣來解讀,在binomiallogistic 迴歸模型中輸出Y=1的對數機率是輸入l的線性函數。將wl 轉化爲概率則有:
P(Y=1∣l)=1−exp(wl)exp(wl).
這就是binomiallogistic 迴歸模型。
3 參數的估計
logistic迴歸模型學習時,存在的訓練數據集 D=(l1,y1),(l2,y2),…,(lN,yN), 其中, li∊Rn, yi∊[0,1],可以應用極大似 然估計法估計模型參數w,從而得到logistic迴歸模型。設:
P(Y=1∣l)=Ψ(l),P(Y=0∣l)=1−Ψ(l)
得似然函數:
i=1∏N[Ψ(li)]yi[1−Ψ(li)]1−yi
得對數似然函數:
LG(w)=k=1∑N[yilogΨ(li)+(1−yi)log(1−Ψ(li))]
=k=1∑N[yilog1−Ψ(li)Ψ(li)+log(1−Ψ(li))]
=k=1∑N[yi(w∗li)−log(1+(w∗li))]
求解LG(w)的極大值,得到w的估計值w。這樣合理的將問題轉化爲了以對數似然函數作爲目標函數最優問題。logistic迴歸學習 中通常採用的方法是 梯度下降法、擬牛頓法。
4 multiterm logistic迴歸
對於多項邏輯迴歸(multitermlogistic),說的是當Y的輸出不在只是二分類[0,1],而是形如[a,b,c,......,f,g,......]的多分類離散型。現在在這裏不過多闡述,後期有時間會補上。