12、python特徵工程內容介紹

目錄

1  特徵工程重要性

2 特徵工程內容包括

3  數據處理

 第一種、量綱不一

 第二種 虛擬變量

 第三種    缺失值處理


特徵工程(Feature Engineering)

其本質上是一項工程活動,他目的是最大限度地從原始數據中提取特徵以供算法和模型使用

1  特徵工程重要性

 01 特徵越好,靈活性越強
(允許選擇不復雜的模型,運行速度快,可以更好的理解和維護)

 02 特徵越好,模型越簡單
(不需要花費太多的時間去尋找最優參數解,大大降低了模型的複雜度)

 03 特徵越好,性能越出色(最終的目的)

(包括模型的效果、執行的效率、模型的可解釋性)

2 特徵工程內容包括

    數據處理
    特徵選擇
    維度壓縮

3  數據處理

數據處理:量綱不一、虛擬變量、缺失值填充

詳細案例見:https://blog.csdn.net/qq_36327687/article/details/84993729

第一種、量綱不一

量綱就是單位,特徵單位不一致,不能當在一起比較

處理方式:
        0-1 標準化
        Z標準化
        Normalizer歸一化
        
(1) 0-1標準化

    是對原始數據進行線性變換,將特徵值映射程區間爲【0-1】的標準值中:

標準化值=(原數據-最小值)/(最大值-最小值)

(2) Z標準化
    
    基於特徵值的均值*(mean)和標準差(standard deviation)進行數據的標準化,計算公式:
    
    標準化數據=(原數據-均值)/(標準差)
    
    標準化後的變量圍繞0上下波動,大於0說明高於平均水平,小於0說明低於平均水平。
   
(3)Normalizer歸一化

    將每個樣本縮放到單位範數(每個樣本的範數爲1),計算公式如下
    
    x的平均值=x/(所有x平方的和)


 
第二種 虛擬變量

詳細案例見鏈接: https://blog.csdn.net/qq_36327687/article/details/84993826
   
   也叫作啞變量和離散特徵編碼、非數量因素可能產生的影響
    

第三種    缺失值處理

詳細案例見鏈接:https://blog.csdn.net/qq_36327687/article/details/84993920

  數據補齊
  刪除缺失行
  不處理
 


4 特徵選擇

(1) 方差選擇法:

先計算各個特徵的方差,選擇呢方差大於閾值的特徵

詳細案例見鏈接:https://blog.csdn.net/qq_36327687/article/details/85004419

(2)相關係數法:

先計算各個特徵對目標值得相關係數,選擇更加相關的特徵

詳細案例見鏈接:https://blog.csdn.net/qq_36327687/article/details/85004611

(3)  遞歸特徵消除法:

使用一個基模型來進行多輪訓練,經過多輪訓練後,保留置頂的特徵數

詳細案例見鏈接:https://blog.csdn.net/qq_36327687/article/details/85008414

(4)  模型選擇法:

把建好的模型對象傳入選擇器,然後根據這個已經建好的模型,自動幫我們選擇最好的特徵值。
 

詳細案例見鏈接:https://blog.csdn.net/qq_36327687/article/details/85010666

5 維度壓縮   

主成分分析(rincipal components Analysis)

在減少數據集的維度的同時,保持對方差貢獻最大的特徵

 詳細案例見鏈接:https://blog.csdn.net/qq_36327687/article/details/85010687
    

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章