Feature engineering is the process of using domain knowledge of the data to create features that
make machine learning algorithms work.

工業界廣泛流傳這麼一句話：數據和特徵決定了機器學習的上限，而模型和算法只是逼近這個上限而已。顧名思義，特徵工程本質是一項工程活動，目的是最大限度地從原始數據中提取特徵以供算法和模型使用。

1.特徵處理

1.1 特徵與標註數據清洗

1.1.1數據採樣

對於二分類問題:選取正例，負例，負類設置爲0, 正類設置爲1.

對於多分類問題:選取多分類，編碼到[0，classnum).

類別不平衡問題：樣本層面可以採用oversampling/undersampling. 算法層面可以採用代價敏感方法/樣本設置權重

1.1.2 樣本過濾

基於統計的異常點檢測算法
例如極差，四分位數間距，均差，標準差等，這種方法適合於挖掘單變量的數值型數據。

基於距離的異常點檢測算法

主要通過距離方法來檢測異常點，將數據集中與大多數點之間距離大於某個閾值的點視爲異常點，主要使用的距離度量方法有絕對距離(曼哈頓距離)、歐氏距離和馬氏距離等方法。

基於密度的異常點檢測算法

考察當前點周圍密度，可以發現局部異常點。

1.2 無量綱化

爲了平衡取值範圍不一致的特徵，需要對特徵進行無量綱化。常用的無量綱化操作有標準化和歸一化。

標準化：標準化需要計算特徵的均值和標準差，然後使用如下公式計算放縮後的特徵值：

x' = x - X ⃗ S

區間縮放法：區間縮放法的思路有多種，常見的一種爲利用兩個最值進行縮放，公式表達爲：

x' = x - M i n M a x - M i n

1.3離散化與啞編碼

1.3.1 離散化

在上面介紹過連續值的取值空間可能是無窮的，爲了便於表示和在模型中處理，需要對連續值特徵進行離散化處理。常用的離散化方法包括等值劃分和等量劃分。例如某個特徵的取值範圍爲[0，10]，我們可以將其劃分爲10段，[0,1),[1,2),⋯,[9,10)

離散特徵的增加和減少都很容易，易於模型的快速迭代；
稀疏向量內積乘法運算速度快，計算結果方便存儲，容易擴展；
離散化後的特徵對異常數據有很強的魯棒性模型也會更穩定；
離散化後可以進行特徵交叉，由M+N個變量變爲M*N個變量，進一步引入非線性提升表達能力；
特徵離散化以後，起到了簡化了邏輯迴歸模型的作用，降低了模型過擬合的風險

1.3.2 啞編碼

啞編碼主要是採用N位狀態寄存器來對N個狀態進行編碼，每個狀態都由他獨立的寄存器位，並且在任意時候只有一位有效。

例子：

對於國籍特徵假設有三個選項，{中國，美國，加拿大} One-hot encoding 之後,中國變成了[1，0，0]，美國變成了[0，1，0]，加拿大變成了[0，0，1]

好處：

使用one-hot編碼，將離散特徵的取值擴展到了歐式空間，離散特徵的某個取值就對應歐式空間的某個點。
在迴歸，分類，聚類等機器等學習算法中，特徵之間距離的計算或相似度的計算是非常重要的，而我們常用的距離或相似度的計算都是在歐式空間的相似度計算，計算餘弦相似性，基於的就是歐式空間。
將離散型特徵使用one-hot編碼，確實會讓特徵之間的距離計算更加合理
對離散型特徵進行one-hot編碼可以加快計算速度。

1.4 缺失值處理

有些特徵可能因爲無法採樣或者沒有觀測值而缺失.例如距離特徵，用戶可能禁止獲取地理位置或者獲取地理位置失敗，此時需要對這些特徵做特殊的處理，賦予一個缺省值。缺省值如何賦予，也有很多種方法。例如單獨表示，衆數，平均值等。

1.5 特徵生成以及特徵學習

特徵生成

根據已有特徵生成新特徵，增加特徵的非線性。常見的數據變換有基於多項式的、基於指數函數的、基於對數函數的。

例如4個特徵，度爲2的多項式轉換公式如下：

特徵學習

特徵學習可以分爲監督特徵學習和無監督特徵學習：

監督特徵學習包括監督神經網絡、多層感知機；

無監督特徵學習包括無監督PCA、LDA、AutoEncoder、MF和各種形式的聚類算法。

2.特徵選擇

2.1 概述

在機器學習或者統計學中，又稱爲變量選擇、屬性選擇或者變量子集選擇，是在模型構建中，選擇相關特徵並構成特徵子集的過程。

目的

簡化模型，增加模型的可解釋性
縮短訓練時間
避免維度災難
改善模型通用性、降低過擬合

2.2一般過程

[1]Dash, Manoranjan, and Huan Liu. “Feature selection forclassification.” Intelligent data analysis 1.1-4 (1997): 131-156.

[2]Tang, Jiliang, Salem Alelyani, and Huan Liu. “Feature selection forclassification: A review.” Data Classification: Algorithms andApplications (2014): 37.