Logistic 迴歸(Logistic Regression)

Logistic迴歸:

1.Logistic函數介紹:


總結下:

1.1.爲什麼要用Logistic函數?

多元線性迴歸模型研究連續性因變量,並且要求總體(因變量)分佈類型爲正態分佈。

可是有時會遇到這樣的數據:患病與未患病、生存與死亡、陰性與陽性……這些結果都是二分類變量(結果只有0或1、是或否等)。

線性概率模型就暴漏出嚴重缺點:即當自變量x取值範圍爲全體實數時,因變量y(也就是預測的目標概率值)會超出0到1這個範圍

如果要研究自變量與分類型因變量的關係,用多元線性迴歸模型是束手無策的。

我們需要一種函數,他需要滿足兩個要求:

  1. 自變量x的取值範圍是“全體實數”,因變量y取值在(0,1)
  2. x的變化時,y也會隨之單調變化

而Logistic函數,就是我們需要的函數,他解決了這個問題,在Logistic函數中:

  1. 自變量x的取值範圍是“全體實數”,而自變量x對應的所有因變量y(也就是預測的目標概率值)都會落在(0,1)之間
  2. 同時對於所有的x,當x增加時y也會單調增加或單調減少,如圖所示:

因此需要使用logistic迴歸模型。


1.2.Logistic函數是什麼?

Logistic概率分佈函數其形式如下:

Pi表示概率。Pi是當Xi確定時,對應個體做出某種選擇的概率。

F(yi)表示Logistic累計概率密度函數

yi稱作隱(潛)變量,yi取值範圍是(負無窮,正無窮),yi通過Logistic函數轉化爲概率

對Logistic函數可以做如下變換:即公式0和公式1都是Logistic函數的表達式

當自變量x(影響因素)有很多個時,


1.3.怎麼得到Logistic函數:進行logit變換

 

設有一個二分類因變量Y,因變量Y有m個自變量(影響因素):X1,X2,……,Xm

記事件發生的條件概率P:P表示在m個自變量作用下事件Y發生的概率。

事件發生概率爲:p

未發生概率爲:1-p

P(y=1/x1,x2,......xm)表示在m個自變量作用下事件Y=1發生的概率是P。根據Logistic函數可以得到下式:

P(y=0/x1,x2,......xm)表示在m個自變量作用下事件Y=1發生的概率,也就是1-P(y=1)。根據Logistic函數可以得到下式:

事件發生概率爲p與未發生概率(1-p)之比爲:p/(1-p),p/(1-p)稱爲事件的優勢比(odds:“機率,發生比,勝算,賠率”)

對odds取自然對數(取自然對數操作稱爲P的logit變換,記作logit(p)就得到Logit(p)函數(公式2),即Logistic函數:

概率P的取值範圍在0~1之間,而logit(P)(也是y)的取值是沒有界限的。

那麼根據公式0.2、公式0.3、公式2,經過下面的轉換,就得到了Logistic函數:

因此需要先對因變量的值p(目標概率)做logit變換。

當p=1時,logit(p)取值爲+∞;當p=0.5時,logit(p)=0;當p=0時,logit(p)取值爲−∞。

這樣一來,就把因變量y的取值範圍從0~1擴展到了實數集,而採用了這種處理的迴歸分析就是logistic迴歸

我們可以這樣解釋:爲了實現logistic迴歸分類器,我們可以在每個特徵上都乘以一個迴歸係數,然後把所有的結果值相加,將這個總和帶入logistic函數中。進而得到一個範圍在0-1之間的數值。最後設定一個閾值,在大於閾值時判定爲1,否則判定爲0。以上便是邏輯斯諦迴歸算法是思想,公式就是分類器的函數形式。


https://www.sohu.com/a/270954377_777125,一文讀懂logistic迴歸的前世今生 (寫的很詳細)

https://wenku.baidu.com/view/c253415f1fb91a37f111f18583d049649b660e15.html,logit模型的原理及應用.ppt,本文logistic函數的部分內容來自這個ppt,很詳細,推薦下載學習!

發佈了18 篇原創文章 · 獲贊 12 · 訪問量 1萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章