目錄
特徵工程(Feature Engineering)
其本質上是一項工程活動,他目的是最大限度地從原始數據中提取特徵以供算法和模型使用
1 特徵工程重要性
01 特徵越好,靈活性越強
(允許選擇不復雜的模型,運行速度快,可以更好的理解和維護)
02 特徵越好,模型越簡單
(不需要花費太多的時間去尋找最優參數解,大大降低了模型的複雜度)
03 特徵越好,性能越出色(最終的目的)
(包括模型的效果、執行的效率、模型的可解釋性)
2 特徵工程內容包括
數據處理
特徵選擇
維度壓縮
3 數據處理
數據處理:量綱不一、虛擬變量、缺失值填充
詳細案例見:https://blog.csdn.net/qq_36327687/article/details/84993729
第一種、量綱不一
量綱就是單位,特徵單位不一致,不能當在一起比較
處理方式:
0-1 標準化
Z標準化
Normalizer歸一化
(1) 0-1標準化
是對原始數據進行線性變換,將特徵值映射程區間爲【0-1】的標準值中:
標準化值=(原數據-最小值)/(最大值-最小值)
(2) Z標準化
基於特徵值的均值*(mean)和標準差(standard deviation)進行數據的標準化,計算公式:
標準化數據=(原數據-均值)/(標準差)
標準化後的變量圍繞0上下波動,大於0說明高於平均水平,小於0說明低於平均水平。
(3)Normalizer歸一化
將每個樣本縮放到單位範數(每個樣本的範數爲1),計算公式如下
x的平均值=x/(所有x平方的和)
第二種 虛擬變量
詳細案例見鏈接: https://blog.csdn.net/qq_36327687/article/details/84993826
也叫作啞變量和離散特徵編碼、非數量因素可能產生的影響
第三種 缺失值處理
詳細案例見鏈接:https://blog.csdn.net/qq_36327687/article/details/84993920
數據補齊
刪除缺失行
不處理
4 特徵選擇
(1) 方差選擇法:
先計算各個特徵的方差,選擇呢方差大於閾值的特徵
詳細案例見鏈接:https://blog.csdn.net/qq_36327687/article/details/85004419
(2)相關係數法:
先計算各個特徵對目標值得相關係數,選擇更加相關的特徵
詳細案例見鏈接:https://blog.csdn.net/qq_36327687/article/details/85004611
(3) 遞歸特徵消除法:
使用一個基模型來進行多輪訓練,經過多輪訓練後,保留置頂的特徵數
詳細案例見鏈接:https://blog.csdn.net/qq_36327687/article/details/85008414
(4) 模型選擇法:
把建好的模型對象傳入選擇器,然後根據這個已經建好的模型,自動幫我們選擇最好的特徵值。
詳細案例見鏈接:https://blog.csdn.net/qq_36327687/article/details/85010666
5 維度壓縮
主成分分析(rincipal components Analysis)
在減少數據集的維度的同時,保持對方差貢獻最大的特徵
詳細案例見鏈接:https://blog.csdn.net/qq_36327687/article/details/85010687