多重共線性的解決方法

  多重共線性(Multicollinearity)是指線性迴歸模型中的解釋變量之間由於存在精確相關關係或高度相關關係而使模型估計失真或難以估計準確[百度百科]。通俗的說,就是變量之間有較強的相關性,影響模型的預測能力。解決多重共線問題可以考慮一下幾種方法:

1、直接刪除

如果明確的知道是哪個變量引起的多重共線問題,可以將該變量直接刪除。但是要注意刪除的變量確定爲相對不重要並從偏相關係數檢驗證實爲產生多重共線的原因。

2、採用逐步迴歸法

逐步迴歸的相關理論可以參考百度百科:

http://baike.baidu.com/link?url=nKqLQwAVwJtyw-sCGo-d5_OBUnauFOwPeZanHUb7SbCWWAmaK6wRXWAbpwmiHL_u7NI6CMHfCfGLoJl1V0Ps9kmROsqfHIOLE4jtCAOjoe-jE7OZQ7ZFIw85W4s9MBMD

3、改變特徵(變量)的表現形式

有些變量可以改變其表現形式,如像網頁的瀏覽次數、點擊次數等特徵屬於長尾分佈,可以對其進行log變換,變換後的變量可以有效的降低變量之間的相關性。

4、增加樣本的數量

樣本信息的不充分導致變量之間的相關性係數較高,增加樣本可以降低變量之間的相關性,但是由於樣本的獲取較爲困難,因此該方法並不常用。

5、正則化

可以不直接對特徵進行改變,而是在訓練模型時,加入正則化項,如L2正則化項。

6、主成分分析(PCA

通過主成分分析提取主要的特徵,從而忽略次要的成分,得到相關性很低的特徵。

主成分的計算過程可以參考:

http://blog.csdn.net/zxd1754771465/article/details/73468172

 

參考鏈接:http://bbs.pinggu.org/thread-3002418-1-1.html


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章