迴歸算法,線性迴歸,logistics

迴歸,又稱 多重回歸分析 :指研究一組隨機變量(Y1 ,Y2 ,…,Yi)和另一組(X1,X2,…,Xk)變量之間關係的統計分析方法
通常Y1,Y2,…,Yi是 因變量 ,X1、X2,…,Xk是 自變量
Regression ,一種數學模型
分類:
一元線性迴歸模型,由大體上有線性關係的一個自變量和一個
因變量組成;模型是Y=a+bX+ε(X是自變量,Y是因變量,ε是隨機誤差)。
通常假定隨機誤差的均值爲0,方差爲σ^2(σ^2﹥0,σ^2與X的值無關)。
若進一步假定隨機誤差遵從正態分佈,就叫做正態線性模型。
一般的,若有k個自變量和1個因變量,則因變量的值分爲兩部分:
一部分由自變量影響,即表示爲它的函數,函數形式已知且含有未知參數;
另一部分由其他的未考慮因素和隨機性影響,即隨機誤差。
線性迴歸分析模型:當函數爲參數未知的線性函數時
非線性迴歸分析模型:當函數爲參數未知的非線性函數時
多重回歸:當因變量個數大於1時
多元迴歸:當自變量個數大於1時
content:
在多個自變量影響一個因變量的關係中,判斷自變量的影響是否顯著,並將影響顯著的選入模型中,剔除不顯著的變量。
通常用逐步迴歸、向前迴歸和向後迴歸等方法
從一組數據出發,確定某些變量之間的定量關係式;即建立數學模型並估計未知參數。通常用最小二乘法。
迴歸主要的種類有:線性迴歸、曲線迴歸、二元logistic迴歸、多元logistic迴歸

多元線性迴歸
有兩個或兩個以上的自變量
逐步迴歸:
1)向前引入法:從一元迴歸開始,逐步增加變量,使指標值達到最優爲止
2)向後剔除法:從全變量回歸方程開始,逐步刪去某個變量,使指標值達到最優爲止
3)逐步篩選法:綜合上述兩種方法

Logistic Regression ——–> http://blog.chinaunix.net/xmlrpc.php?r=blog/article&uid=9162199&id=4223505
屬於廣義線性迴歸模型
基本原理:
(1)找一個合適的預測函數(Andrew Ng的公開課中稱爲hypothesis),一般表示爲h函數,該函數就是我們需要找的分類函數,它用來預測輸入數據的判斷結果。這個過程時非常關鍵的,需要對數據有一定的瞭解或分析,知道或者猜測預測函數的“大概”形式,比如是線性函數還是非線性函數。
(2)構造一個Cost函數(損失函數),該函數表示預測的輸出(h)與訓練數據類別(y)之間的偏差,可以是二者之間的差(h-y)或者是其他的形式。綜合考慮所有訓練數據的“損失”,將Cost求和或者求平均,記爲J(θ)函數,表示所有訓練數據預測值與實際類別的偏差。
(3)顯然,J(θ)函數的值越小表示預測函數越準確(即h函數越準確),所以這一步需要做的是找到J(θ)函數的最小值。找函數的最小值有不同的方法,Logistic Regression實現時有的是梯度下降法(Gradient Descent)。
預測函數,一般用soft max
損失函數,用極大似然估計求解
優點:
1)預測結果是界於0和1之間的概率;
2)可以適用於連續性和類別性自變量;
3)容易使用和解釋;
4)實現簡單,易於理解和實現;計算代價不高,速度很快,存儲資源低;
缺點:
1)對模型中自變量多重共線性較爲敏感,例如兩個高度相關自變量同時放入模型,可能導致較弱的一個自變量回歸符號不符合預期,符號被扭轉。?需要利用因子分析或者變量聚類分析等手段來選擇代表性的自變量,以減少候選變量之間的相關性;
2)預測結果呈“S”型,因此從log(odds)向概率轉化的過程是非線性的,在兩端隨着?log(odds)值的變化,概率變化很小,邊際值太小,slope太小,而中間概率的變化很大,很敏感。 導致很多區間的變量變化對目標概率的影響沒有區分度,無法確定閥值。
3)容易欠擬合,分類精度可能不高

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章