關於邏輯迴歸(logistic regression LR)模型的學習思考

一、基本概念

1.1 什麼是邏輯迴歸

邏輯迴歸(LR)名義上帶有“迴歸”字樣,第一眼看去有可能會被以爲是預測方法,其實質卻是一種常用的分類模型,主要被用於二分類問題,它將特徵空間映射成一種可能性,在LR中,y是一個定性變量{0,1},LR方法主要用於研究某些事發生的概率。

假定有一個二分類問題,輸出y{0,1} ,線性迴歸模型(公式1.1.1)

z=wTx+b

的輸出是實數值,無法完成二分類動作,因此我們需要有一個較爲理想的階躍函數來實現z 值從連續實數值到{0,1} 的轉化,假定存在以下函數:
ϕz={0,if z< 00.5,if z= 01,if z> 0

但從函數的連續性來講,上述函數不連續,數學屬性不是特別優秀,因此我們希望有一個單調可微的函數供我們使用(在求函數最優值時會用到微分或者偏微分),於是SigmoidFunction 出現在我們眼前(公式1.1.2):

ϕz=11+ez

兩個函數的圖像對比如下:
階躍函數圖像
sigmoid函數圖像

由於SigmoidFunction 的取值在[0,1] ,而且具備良好的數學特性,因爲,如果有一個測試點x ,經過SigmoidFunction 計算出來的結果都在0到1之間。在LR模型中,我們做出如下假設(公式1.1.3):

y={1,if ϕz 0.50,if ϕz< 0.5 

將1.1.1代入1.1.2,我們可以推導出,如果要計算一個樣本的分類屬性,到底屬於1或者0,我們只需要求解參數組w

1.2 LR的代價函數(cost function)

根據線性迴歸模型的經驗,我們會選擇模型輸出與實際輸出的誤差平方和作爲代價函數,如下(公式1.2.1):

J(w)=i=0n12(ϕ(zi)yi)2

通過最小化代價函數,對參數組w 進行求解。但是由於1.1.2屬於非凸函數,存在很多的局部最小值,不利於整體求解,於是LR中做如下變通。根據概率的後驗估計:

p(y=1|x;w)=ϕ(wx+b)=ϕ(z)

p(y=0|x;w)=1ϕ(z)

將上面兩個公式可以合併爲一個:

p(y|x;w)=ϕ(z)y(1ϕ(z))(1y)

1.3 LR的梯度下降法求解

二、對比分析

2.1邏輯迴歸的優缺點

優點:

  • 實現簡單,廣泛的應用於工業問題上;
  • 速度快,適合二分類問題
  • 簡單易於理解,直接看到各個特徵的權重
  • 能容易地更新模型吸收新的數據
  • 對邏輯迴歸而言,多重共線性並不是問題,它可以結合L2正則化來解決該問題;

缺點:
- 對數據和場景的適應能力有侷限性,不如決策樹算法適應性那麼強。
- 當特徵空間很大時,邏輯迴歸的性能不是很好;
- 容易欠擬合,一般準確度不太高
- 不能很好地處理大量多類特徵或變量;
- 只能處理兩分類問題(在此基礎上衍生出來的softmax可以用於多分類),且必須線性可分,對於非線性特徵,需要進行轉換;
- 使用前提: 自變量與因變量是線性關係。
- 只是廣義線性模型,不是真正的非線性方法。
-

2.2與線性迴歸的區別

Logistic迴歸與多重線性迴歸實際上有很多相同之處,最大的區別就在於它們的因變量不同,其他的基本都差不多。正是因爲如此,這兩種迴歸可以歸於同一個家族,即廣義線性模型(generalizedlinear model)。
這一家族中的模型形式基本上都差不多,不同的就是因變量不同。這一家族中的模型形式基本上都差不多,不同的就是因變量不同。

  • 如果是連續的,就是多重線性迴歸
  • 如果是二項分佈,就是Logistic迴歸
  • 如果是Poisson分佈,就是Poisson迴歸
  • 如果是負二項分佈,就是負二項迴歸

未完待續!

版本號 時間 作者 變更內容
V0.1 2018年3月6日 雷小蠻 第一次創建
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章