泛統計理論初探——初探特徵工程

統計學習-特徵工程介紹

探究特徵工程
衆所周知，特徵工程是非常重要的數據挖掘步驟之一。在我們獲取數據後，會首先進行數據清洗並得到一個能夠分析的數據集。然後開始觀察數據，並對數據做特徵工程處理，因爲有些模型對數據的特徵屬性要求較高。因此特徵工程處理技巧是一個非常重要的步驟，它甚至可以影響最終數據挖掘的結果。在本文中，將會介紹幾種簡單的特徵工程方法，比如對數壓縮、特徵歸一化等方法。
首先我們對特徵也就是解釋變量的種類做一個歸納，大致的變量可以分爲離散無序變量、離散有序變量、連續變量、非數值變量等。對於離散無序變量，比如性別、郵編、物品種類等都是離散無序變量。對於離散有序變量來說，常見的比如學歷、年齡段等變量是屬於離散有序變量。而對於連續變量，常見的有身高、體重等變量是屬於連續變量。對於非數值變量，比如圖片、文本、日誌、郵件等變量。而對於不同的變量類型，我們會採用不同的特徵工程技巧，下面我們來進行介紹。
首先介紹的是特徵變換，特徵變換屬於一種常見的變量映射方法。由於在經典迴歸模型中，模型的係數受到變量取值範圍的影響較大，所以我們可以在進行模型分析之前先進行特徵變換。常見的特徵變換有標準化和區間放縮法。標準化的公式如下：

該公式代表的是把所有的值都映射到同一個量綱下，使得數據本身的單位不會過度影響模型的係數。
而對於區間放縮法的公式如下：

該公式的含義是把某個變量的數值進行映射到[0,1]的區間上，因爲變量的取值總是在最小值和最大值之間，因此它們在經過上述公式的變換後會落入[0,1]區間。該公式也可以幫助使用者消除數據單位量綱的影響。
所以我們可以看出，如果使用者在對連續的數據進行分析時，最好先將數據進行特徵變換，以此來消除量綱和數據單位對模型最終參數的影響。
下面我們來介紹一下特徵壓縮這種方法，特徵壓縮是一種非常常用的特徵工程方法。就拿常見的對數變換方法來說，該方法是對自變量進行對數變換，比如直接使用以自然數e爲底的log函數進行映射。其實對於對數壓縮方法來說，它有兩個好處。第一是可以降低數值較大的樣本對於模型參數的影響，降低了數據異常值的影響，因爲在實際的數據集中常常存在一些異常數據的情況，使用對數壓縮變換可以降低這種影響。第二是這種變換可以將一些偏態的分佈轉換爲近似的正態分佈，從而更符合模型的使用假設。
其實還有比較常用的壓縮方法，比如主成分分析方法（PCA），在後續文章中我們會專門介紹主成分分析方法。該方法是一種常見的提取變量主要特徵的方法，通常用於變量的降維處理，進而降低模型的複雜度，增加模型的通用性和解釋性。
總的來說，特徵工程有許多的技巧和方法，本文只是對特徵工程進行一個初步的簡單介紹，在後續的文章還會進行其他的特徵工程方法介紹。而實際上，特徵工程是非常依賴分析者的經驗的，何時使用特徵工程技巧，使用什麼特徵工程技巧都會決定模型最終的可解釋性和預測準確性。因此我們需要重視特徵工程方法，加強這方面的學習和積累。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

泛統計理論初探——初探特徵工程

統計學習-特徵工程介紹

DAPPER 事務 TRANSACTION

泛統計理論初探——常見正則化技巧簡介

泛統計理論初探——探討梯度下降學習率優化技巧

泛統計理論初探——激活函數初探

LeetCode刷題——Matrix zeroing矩陣置零

泛統計理論初探——模型泛化能力增強技巧

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結