人智導(九):迴歸方法的精化
標準迴歸的不足
- 標準的迴歸公式:
- 觀測變量(特徵)越多,方差越大
- 需要訓練數據量n>>p才能獲得較低方差
- 迴歸模型的精度和解釋性能改進:低方差(泛化)、低偏差(準確)
- 不太相關的觀測變量會導致模型的複雜性
- 改進思路:選擇關鍵的觀測變量(特徵)
特徵(子集)選擇
- 特徵(子集)選擇:從p個觀測變量中選擇出與較相關的子集,通過這個子集實現迴歸模型
- 最佳子集選擇算法:
- 對於:
- 構建出所有的個迴歸模型
- 篩選出組合中均方誤差RSS最小的模型
- 從得到的模型中通過交叉驗證再宣傳預測均方誤差最小的模型,所對應的即爲最佳子集。
- 對於:
- 特點:簡單而低效,需要從中搜索出一個最佳,不適合處理很大的情況
- 前向選擇迴歸算法:
- 對於:
- 構建所有的p-k個迴歸模型,通過逐次累加一個相應變量的方式
- 在這p-k個模型中篩選出均方誤差RSS最小的模型
- 從得到的模型中通過交叉驗證再選出預測均方誤差最小的模型,即爲目標子集
- 對於:
- 特點:僅需從個模型空間中搜索出目標子集,但不能保證得到的子集是最佳的(模型RSS最小)
示例:
- 數據集有三個觀測變量(p=3)
- 最佳的1-變量模型包含;最佳的2-變量模型包含和
- 前向選擇算法不能找出最佳的2-變量模型,因其不包括最佳的1-變量模型
子集選擇是優化模型的過程: - 選擇所有的觀測變量,總是有最小RSS(偏差)但方差最大
- 減少觀測變量(子集選擇),提升模型泛化能力(test MSE)
- 方差大則過擬合,偏差大則欠擬合(準確性差)
正則化方法
- 迴歸公式: 估算係數通過最小化RSS:
- 正則化方法:
- 使用所有的個觀測變量,約束變量的係數使RSS取值儘可能趨於零
- 迴歸係數的取值限定在一個小範圍內,將有效降低模型的方差
嶺迴歸(Ridge Regression)方法
嶺迴歸方法:
- 類似於最小二乘法,但隙數的估算通過最小化公式:
- 其中爲調試參數(超參數):
- 當,約束不起作用,如同標準的線性迴歸
- 當,約束影響越大,係數儘可能小
嶺迴歸係數的正則化(標準化):
- 範數:
- 當增加,降低,如圖
- 一般地,所有變量需被標準化:
- 嶺迴歸方法:是一種平衡“方差-偏差”技術
- 交叉驗證test MSE選擇最優的
- 的增加,導致方差降低而偏差上升
- 如下圖,綠線爲方差,黑線爲偏差,紅線爲嶺迴歸的test MSE
Lasso迴歸算法
Lasso迴歸算法:
- 類似於最小二乘法,但係數的估算通過最小化公式:
- 其中爲調試參數:
- 當,約束不起作用,如同標準的線性迴歸
- 當,約束影響越大,係數將盡可能小
Lasso係數的正則化(標準化):
- 範數:
- 當增加,降低;增加足夠大,會使某些變量係數爲0