12、python特徵工程內容介紹

原創

UP Lee

2018-12-16 23:31

特徵工程（Feature Engineering）

其本質上是一項工程活動，他目的是最大限度地從原始數據中提取特徵以供算法和模型使用

1 特徵工程重要性

01 特徵越好，靈活性越強
（允許選擇不復雜的模型，運行速度快，可以更好的理解和維護）

02 特徵越好，模型越簡單
（不需要花費太多的時間去尋找最優參數解，大大降低了模型的複雜度）

03 特徵越好，性能越出色（最終的目的）

（包括模型的效果、執行的效率、模型的可解釋性）

2 特徵工程內容包括

   數據處理
   特徵選擇
   維度壓縮

3 數據處理

數據處理：量綱不一、虛擬變量、缺失值填充

詳細案例見：https://blog.csdn.net/qq_36327687/article/details/84993729

第一種、量綱不一

量綱就是單位，特徵單位不一致，不能當在一起比較

處理方式：
0-1 標準化
Z標準化
Normalizer歸一化

（1） 0-1標準化

是對原始數據進行線性變換，將特徵值映射程區間爲【0-1】的標準值中：

標準化值=（原數據-最小值）/(最大值-最小值)

（2） Z標準化

基於特徵值的均值*（mean）和標準差（standard deviation）進行數據的標準化，計算公式：

標準化數據=（原數據-均值）/(標準差)

標準化後的變量圍繞0上下波動，大於0說明高於平均水平，小於0說明低於平均水平。

（3）Normalizer歸一化

將每個樣本縮放到單位範數（每個樣本的範數爲1），計算公式如下

x的平均值=x/(所有x平方的和)

第二種虛擬變量

詳細案例見鏈接： https://blog.csdn.net/qq_36327687/article/details/84993826

也叫作啞變量和離散特徵編碼、非數量因素可能產生的影響

第三種缺失值處理

詳細案例見鏈接：https://blog.csdn.net/qq_36327687/article/details/84993920

數據補齊
刪除缺失行
不處理

4 特徵選擇

（1）方差選擇法：

先計算各個特徵的方差，選擇呢方差大於閾值的特徵

詳細案例見鏈接：https://blog.csdn.net/qq_36327687/article/details/85004419

（2）相關係數法：

先計算各個特徵對目標值得相關係數，選擇更加相關的特徵

詳細案例見鏈接：https://blog.csdn.net/qq_36327687/article/details/85004611

(3) 遞歸特徵消除法：

使用一個基模型來進行多輪訓練，經過多輪訓練後，保留置頂的特徵數

詳細案例見鏈接：https://blog.csdn.net/qq_36327687/article/details/85008414

(4) 模型選擇法：

把建好的模型對象傳入選擇器，然後根據這個已經建好的模型，自動幫我們選擇最好的特徵值。

詳細案例見鏈接：https://blog.csdn.net/qq_36327687/article/details/85010666

5 維度壓縮

主成分分析（rincipal components Analysis）

在減少數據集的維度的同時，保持對方差貢獻最大的特徵

詳細案例見鏈接：https://blog.csdn.net/qq_36327687/article/details/85010687

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

12、python特徵工程內容介紹

1 特徵工程重要性

2 特徵工程內容包括

3 數據處理

第一種、量綱不一

第二種虛擬變量

第三種缺失值處理

4 特徵選擇

5 維度壓縮

26、python密度聚類方法（DBSCAN密度聚類）

21、python的K-means聚類分析方法案例代碼

22、python關聯規則案例代碼

10、python隨機森林代碼案例

tushare pro的token憑證碼設置

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

12、python特徵工程內容介紹

1 特徵工程重要性

2 特徵工程內容包括

3 數據處理

第一種、量綱不一

第二種 虛擬變量

第三種 缺失值處理

4 特徵選擇

5 維度壓縮

第二種虛擬變量

第三種缺失值處理