邏輯迴歸( Logistic regression)
http://www.mamicode.com/info-detail-501714.html
https://baike.baidu.com/item/logistic%E5%9B%9E%E5%BD%92/2981575
http://blog.csdn.net/han_xiaoyang/article/details/49123419
http://blog.csdn.net/u010692239/article/details/52345754
一、介紹
Logistic迴歸:分類問題的首選算法。
迴歸與分類的區別:迴歸所預測的目標量的取值是連續的(例如房屋的價格);而分類所預測的目標變量的取值是離散的(例如判斷郵件是否爲垃圾郵件)。
爲便於理解,從二值分類(Binary Classification)開始,在此分類問題中,Y只能取0或1。例如:我們要製作一個垃圾郵件過濾系統,如果一封郵件是垃圾郵件,Y=1,否則Y=0。給定樣本集,它們的特徵Xi和標籤Yj都已知,訓練一個分類器將它們分開。
Logistic迴歸的因變量可以是二分類的,也可以是多分類的,但是二分類的更爲常用,也更加容易解釋,多類可以使用Softmax方法進行處理。實際中最爲常用的就是二分類的Logistic迴歸。
二、核心思想
核心思想:線性迴歸的結果輸出是一個連續值,值的範圍無法限定,有沒有辦法把這個結果值映射爲可以幫助我們決策的結果? 如果輸出結果是 (0,1) 的一個概率值,這個問題就清楚了。在數學上找了一圈,找着這樣一個簡單的函數,Logistic|Sigmoid函數(S型函數):
Logistic Regression是一個被logistic方程歸一化後的線性迴歸。
三、Logistic迴歸參數估計
對數似然函數:
然後令該導數爲0,會很失望的發現,它無法解析求解,參數迭代求解。
四、參數的迭代
Logistic迴歸參數的學習規則(梯度下降):
對比其與線性迴歸結果,具有相同的形式:
五、對數線性模型
一個事件的機率odds,是指該事件發生的概率與該事件不發生的概率的比值。
Logistic迴歸實質:發生概率除以沒有發生概率再取對數。
對數機率:Logit函數
六、Logistic迴歸的損失函數
七、廣義線性模型(Generalized Linear Model)
Y不再只是正態分佈,而是擴大爲指數族中的任一分佈;
變量x→g(x)→y,連接函數g
連接函數g單調可導:
八、廣義線性模型
九、Softmax迴歸
十、Logistic迴歸模型的適用條件
因變量爲二分類的分類變量或某事件的發生率,並且是數值型變量。但是需要注意,重複計數現象指標不適用於Logistic迴歸;
殘差和因變量都要服從二項分佈。二項分佈對應的是分類變量,所以不是正態分佈,進而不是用最小二乘法,而是最大似然法來解決方程估計和檢驗問題;
自變量和Logistic概率是線性關係;
各觀測對象間相互獨立。