泛統計理論初探——初探特徵工程

統計學習-特徵工程介紹

探究特徵工程
衆所周知,特徵工程是非常重要的數據挖掘步驟之一。在我們獲取數據後,會首先進行數據清洗並得到一個能夠分析的數據集。然後開始觀察數據,並對數據做特徵工程處理,因爲有些模型對數據的特徵屬性要求較高。因此特徵工程處理技巧是一個非常重要的步驟,它甚至可以影響最終數據挖掘的結果。在本文中,將會介紹幾種簡單的特徵工程方法,比如對數壓縮、特徵歸一化等方法。
首先我們對特徵也就是解釋變量的種類做一個歸納,大致的變量可以分爲離散無序變量、離散有序變量、連續變量、非數值變量等。對於離散無序變量,比如性別、郵編、物品種類等都是離散無序變量。對於離散有序變量來說,常見的比如學歷、年齡段等變量是屬於離散有序變量。而對於連續變量,常見的有身高、體重等變量是屬於連續變量。對於非數值變量,比如圖片、文本、日誌、郵件等變量。而對於不同的變量類型,我們會採用不同的特徵工程技巧,下面我們來進行介紹。
首先介紹的是特徵變換,特徵變換屬於一種常見的變量映射方法。由於在經典迴歸模型中,模型的係數受到變量取值範圍的影響較大,所以我們可以在進行模型分析之前先進行特徵變換。常見的特徵變換有標準化和區間放縮法。標準化的公式如下:
在這裏插入圖片描述
該公式代表的是把所有的值都映射到同一個量綱下,使得數據本身的單位不會過度影響模型的係數。
而對於區間放縮法的公式如下:
在這裏插入圖片描述
該公式的含義是把某個變量的數值進行映射到[0,1]的區間上,因爲變量的取值總是在最小值和最大值之間,因此它們在經過上述公式的變換後會落入[0,1]區間。該公式也可以幫助使用者消除數據單位量綱的影響。
所以我們可以看出,如果使用者在對連續的數據進行分析時,最好先將數據進行特徵變換,以此來消除量綱和數據單位對模型最終參數的影響。
下面我們來介紹一下特徵壓縮這種方法,特徵壓縮是一種非常常用的特徵工程方法。就拿常見的對數變換方法來說,該方法是對自變量進行對數變換,比如直接使用以自然數e爲底的log函數進行映射。其實對於對數壓縮方法來說,它有兩個好處。第一是可以降低數值較大的樣本對於模型參數的影響,降低了數據異常值的影響,因爲在實際的數據集中常常存在一些異常數據的情況,使用對數壓縮變換可以降低這種影響。第二是這種變換可以將一些偏態的分佈轉換爲近似的正態分佈,從而更符合模型的使用假設。
其實還有比較常用的壓縮方法,比如主成分分析方法(PCA),在後續文章中我們會專門介紹主成分分析方法。該方法是一種常見的提取變量主要特徵的方法,通常用於變量的降維處理,進而降低模型的複雜度,增加模型的通用性和解釋性。
總的來說,特徵工程有許多的技巧和方法,本文只是對特徵工程進行一個初步的簡單介紹,在後續的文章還會進行其他的特徵工程方法介紹。而實際上,特徵工程是非常依賴分析者的經驗的,何時使用特徵工程技巧,使用什麼特徵工程技巧都會決定模型最終的可解釋性和預測準確性。因此我們需要重視特徵工程方法,加強這方面的學習和積累。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章