線性迴歸與邏輯迴歸思考

 在學習完 Andrew Ng 教授的機器學習課程,和多方查閱大神的博客,本以爲很簡單的邏輯迴歸,在深思其細節的時候,很多容易讓人不理解,甚至是疑惑的地方,這幾天一直冥想其中的緣由。

1、 爲什麼是邏輯迴歸? 
  都說線性迴歸用來做迴歸預測,邏輯迴歸用於做二分類,一個是解決迴歸問題,一個用於解決分類問題。但很多人問起邏輯迴歸和線性迴歸的區別,很多人會大喊一聲(也可能是三聲):邏輯迴歸就是對線性迴歸做了一個壓縮,將y 的閾值從y(+,)壓縮到(0,1)。那麼問題來了,問什麼僅僅做一個簡單的壓縮,就將回歸問題變成了分類問題?裏面蘊含着本質? 
  首先要從數據說起,線性迴歸的樣本的輸出,都是連續值,y(+,)而,邏輯迴歸中y{0,1},只能取0和1。對於擬合函數也有本質上的差別: 
  線性迴歸:f(x)=θTX=θ1x1+θ2x2++θnxn 
  邏輯迴歸:f(x)=p(y=1x;θ)=g(θTX),其中,g(z)=11+ez 
可以看出,線性迴歸的擬合函數,的確是對f(x)的輸出變量y的擬合,而邏輯迴歸的擬合函數是對爲1類的樣本的概率的擬合。

2、那麼,爲什麼要以1類樣本的概率進行擬合呢,爲什麼可以這樣擬合呢? 
  首先,logstic 函數的本質說起。若要直接通過迴歸的方法去預測二分類問題, y 到底是0類還是1類,最好的函數是單位階躍函數。然而單位階躍函數不連續(GLM 的必要條件),而 logsitic 函數恰好接近於單位階躍函數,且單調可微。於是希望通過該複合函數去擬合分類問題: 
  

y=11+eθTX

於是有: 
  
lny1y=θTX

發現如果我們假設 y=p(y1x;θ) 作爲我們的擬合函數,等號左邊的表達式的數學意義就是1類和0類的對數機率(log odds)。這個表達式的意思就是:用線性模型的預測結果去逼近1類和0類的機率比。於是,θTX=0就相當於是1類和0類的決策邊界: 
  當θTX>0,則有y>0.5;若θTX+ ,則y1 ,即y 爲1類; 
  當θTX<0,則有y<0.5 ; 若θTX,則y0,即 y 爲0類。 
   
  這個時候就能看出區別來了,在線性迴歸中θTX爲預測值的擬合函數;而在邏輯迴歸中θTX=0

爲決策邊界



轉自:http://blog.csdn.net/viewcode/article/details/8794401

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章