特徵縮減係數的理解等嶺迴歸 lasso

原創

2020-02-25 08:09

出處：http://blog.csdn.net/autoliuweijie/article/details/50285881

總結來說，加入特徵縮減係數是爲了減少影響係數小的特徵，保留重要的特徵。

1. 理論

概述:

通過對損失函數(即優化目標)加入懲罰項，使得訓練求解參數過程中會考慮到係數的大小，通過設置縮減係數(懲罰係數)，會使得影響較小的特徵的係數衰減到0，只保留重要的特徵。常用的縮減係數方法有lasso(L1正則化)，嶺迴歸(L2正則化)。

縮減係數的目的

2.1 消除噪聲特徵:

如果模型考慮了一些不必要的特徵，那麼這些特徵就算是噪聲。噪聲是沒必要的，使得模型複雜，降低模型準確性，需要剔除。

2.2 消除關聯的特徵:

如果模型的特徵空間中存在關聯的特徵，這會使得模型不適定，即模型參數會有多解。訓練得到的只是其中一個解，這個解往往不能反映模型的真實情況，會誤導模型的分析與理解。訓練求解的模型參數受樣本影響特別大，樣本變化一點點，參數解就跳到另一組解去了。總之，模型是不穩定的。

正則化：

什麼是正則化：
```
對損失函數(目標函數)加入一個懲罰項，使得模型由多解變爲更傾向其中一個解。

在最小二乘法中，可以這樣理解。XTX可能是不可逆的，通過加上正則項，迫使弱的特徵的係數縮減爲0.
```
3.1 lasso(L1正則化):

與普通的線性迴歸相同，只是把損失函數換成:

這樣，最優化求解參數過程，就會傾向選擇係數比較小的解。當alpha增大，哪些無關的係數會率先縮減爲0。但是L1正則化對相關特徵的消除無能爲力，仍然是不穩定的。

3.2 嶺迴歸(L2正則化):

與普通的線性迴歸相同，只是把損失函數換成:

與lasso相比，這裏的懲罰項加上了平方，這樣就對於相關的兩個特徵，傾向與一個特別大，另一個接近0，起到了消除相關特徵的效果。下圖爲隨着alpha變化，係數的縮減效果。

2. 實現

我的實現：

包含L1與L2:

https://github.com/autoliuweijie/MachineLearning/blob/master/regression/regression.py

scikit-learn:

嶺迴歸:

>>> from sklearn import linear_model
>>> clf = linear_model.Ridge (alpha = .5)
>>> clf.fit ([[0, 0], [0, 0], [1, 1]], [0, .1, 1]) 
Ridge(alpha=0.5, copy_X=True, fit_intercept=True, max_iter=None,
      normalize=False, random_state=None, solver='auto', tol=0.001)
>>> clf.coef_
array([ 0.34545455,  0.34545455])
>>> clf.intercept_ 
0.13636...

通過交叉驗證尋找最優的alpha:

>>> from sklearn import linear_model
>>> clf = linear_model.RidgeCV(alphas=[0.1, 1.0, 10.0])
>>> clf.fit([[0, 0], [0, 0], [1, 1]], [0, .1, 1])       
RidgeCV(alphas=[0.1, 1.0, 10.0], cv=None, fit_intercept=True, scoring=None,
    normalize=False)
>>> clf.alpha_                                      
0.1

lasso:

>>> from sklearn import linear_model
>>> clf = linear_model.Lasso(alpha = 0.1)
>>> clf.fit([[0, 0], [1, 1]], [0, 1])
Lasso(alpha=0.1, copy_X=True, fit_intercept=True, max_iter=1000,
   normalize=False, positive=False, precompute=False, random_state=None,
   selection='cyclic', tol=0.0001, warm_start=False)
>>> clf.predict([[1, 1]])
array([ 0.8])

詳細可參考該文章：

乾貨：結合Scikit-learn介紹幾種常用的特徵選擇方法

http://dataunion.org/14072.html

3. 擴展：

更多關於特徵選擇: http://dataunion.org/14072.html

scikit-learn: http://scikit-learn.org/stable/modules/linear_model.html#lars-lasso

參考：

[1]《機器學習實戰》 Peter Harrington  
[2] scikit-learn官方手冊

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

特徵縮減係數的理解等嶺迴歸 lasso

出處：http://blog.csdn.net/autoliuweijie/article/details/50285881

1. 理論

2. 實現

乾貨：結合Scikit-learn介紹幾種常用的特徵選擇方法

3. 擴展：

參考：

【筆記】動手學深度學習-前言

公司新來一個幹練小夥，把 MyBatis 替換成 MyBatis-Plus，上線後哭暈在廁所。。。

支持非IE瀏覽器真的那麼難嗎？

爲啥就那麼痛恨IE？

Brian Sun：回覆“爲啥就那麼痛恨IE？”

體驗下，大廠在使用功能的API網關！

見鬼了！我家的 WiFi 只有下雨天才能正常使用...

短視頻文案提取原來如此簡單

oa系統集成及案例樣式

開發人員爲什麼要支持非IE瀏覽器的四個故事

對於數據混亂程度的判定準則：基尼不純度、信息熵、方差

機器學習理論與實戰（八）迴歸相關公式詳解

特徵縮減係數的理解等嶺迴歸 lasso

五大常用算法之一：分治算法

hash算法原理詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

特徵縮減係數的理解等 嶺迴歸 lasso

出處：http://blog.csdn.net/autoliuweijie/article/details/50285881

1. 理論

2. 實現

3. 擴展：

參考：

特徵縮減係數的理解等嶺迴歸 lasso