[轉]你應該掌握的七種迴歸技術

原文鏈接:http://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/
翻譯鏈接:http://www.csdn.net/article/2015-08-19/2825492

一共有以下七種:
1. Linear Regression線性迴歸
2. Logistic Regression邏輯迴歸
3. Polynomial Regression多項式迴歸
4. Stepwise Regression逐步迴歸
5. Ridge Regression嶺迴歸
6. Lasso Regression套索迴歸
7. ElasticNet迴歸

Stepwise Regression逐步迴歸

  • 感覺就是用各種指標,來逐個判斷加入各個變量後的提升程度,超過閾值、最大的,就不斷把變量添加進來;或者反過來,逐步把變量剔除掉
  • 然而感覺有點問題,比如RF這種,會多次抽樣的,隨機啊,沒有辦法的啊
  • sample:

Ridge Regression嶺迴歸

  • 多重共線性(自變量高度相關)數據,就是各個變量相關,這時候,用最小二乘法就不太靠譜(有個前提條件是特定的行列式 |X’X| 不爲零才適用)。這時,會可能是“病態矩陣”,即數據小的變動,會造成各項的參數的極大變化
  • 所以進行修正,“在自變量信息矩陣的主對角線元素上人爲地加入一個非負因子,從而使迴歸係數的估計稍有偏差、而估計的穩定性卻可能明顯提高的一種迴歸分析方法,它是最小二乘法的一種補充,嶺迴歸可以修復病態矩陣,達到較好的效果”
  • 爲什麼叫嶺迴歸,就是上面的“非負因子”K,設置不同大小時,會導致函數效果的“嶺跡”不同,根據圖形來選擇合適的K。在這篇文檔裏 http://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/ 有詳細的說明
    這裏寫圖片描述
  • 公式如下:
    這裏寫圖片描述

Lasso Regression套索迴歸

  • 這篇文檔 http://wenku.baidu.com/link?url=Syah46q7ak6xp0BnQegyatdi9BIizpqmoZ8wDZsPmbhoS5PBS_0dXF-ogpOQtnQQb-uIKHgo1FzYem__6zVNOQGoOcA7euGlrBNzOum1HAO 有對比:
  • “爲了提高最小二乘估計的兩個技術標準,子集選擇法和嶺迴歸都有缺陷。子集選擇法可以得出一個可以解釋的模型,但是給出的模型過於多變,而回歸過程本身是離散的——因變量既不能被保留,也不能從模型中剔除。數據中的小變動會影響由子集選擇法得出的不同模型而且還會降低模型的預測精度。嶺迴歸是一個連續的過程,由於其不斷收縮係數,因此較平穩。然而,他並沒有將任何係數收縮爲0,因而這個方法不能給出一個簡單的可解釋的模型。在此,我們提出一個新的方法,成爲LASSO,就是“絕對收縮和選擇算子”。它使一些係數收縮並將其他的設爲0,因此就是說它嘗試保留了子集選擇法和嶺迴歸的好的性質。”
  • 公式如下:
    這裏寫圖片描述
  • 跟上面的Ridge比較,“它使用的懲罰函數是絕對值,而不是平方。這導致懲罰(或等於約束估計的絕對值之和)值使一些參數估計結果等於零。使用懲罰值越大,進一步估計會使得縮小值趨近於零。這將導致我們要從給定的n個變量中選擇變量。”然而並未很明白爲何絕對值就能收縮┑( ̄Д  ̄)┍
  • 另一類文檔裏寫的是:
    這裏寫圖片描述
    這裏的理解就是,參數加起來要小於一個定值,所以會起到收縮的效果

ElasticNet迴歸

  • 看公式:
    這裏寫圖片描述
  • 嗯,就是上面Ridge和Lasso兩個的合成嘛,把兩個都加進來的,摔
  • “ElasticNet是Lasso和Ridge迴歸技術的混合體。它使用L1來訓練並且L2優先作爲正則化矩陣。當有多個相關的特徵時,ElasticNet是很有用的。Lasso 會隨機挑選他們其中的一個,而ElasticNet則會選擇兩個。”
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章