《百面機器學習》第一章——特徵工程筆記（簡）

原創

2019-08-28 20:14

特徵工程

1. 特徵歸一化

對數值類型的特徵做歸一化，最終將特徵的取值都統一到大致相等的數值區間內。

優點：

可將所有特徵消除量綱。
避免結果傾向於數值差別較大的特徵。

常見的方法有：

線性函數歸一化
零均值歸一化

適用於：邏輯迴歸、SVM、神經網絡
不適用於：決策樹

2. 類別型特徵

主要指的非數值型的離散特徵，如性別（男、女）。

常見的處理方法：

序號編碼：處理具有大小關係的數據。如：高、中、低，映射爲3、2、1。
獨熱編碼（one-hot）：處理類別之間無大小關係的離散類別數據。
1）使用係數向量來節省空間
2）配合特徵選擇降低維度
二進制編碼：兩步走先賦值爲id，再將id二進制化。（相較於one-hot節省空間）

3. 高維組合特徵的處理

爲了提高複雜關係的擬合能力，通常將一階離散特徵兩兩組合，構成高階特徵。
如：

但是對於id類的特徵，優於其數量十分龐大，不適用

4.組合特徵

特徵的組合，如果是簡單的兩兩組合，會產生參數過多、過擬合的問題。並且並不是所有的特徵都是有意義的。
所以我們可以藉助決策樹的方法，來進行特徵的選擇與組合。

5. 文本表示模型

文本的表示是NLP中的一個基礎性的工作與技術，通常採用的方法有如下幾個：

詞袋模型
TF-IDF值
Word2Vec
LDA

在抽取高層的語義特徵時，採用了CNN，比起DNN和RNN的優勢在於：

參數量少
訓練速度快
降低了過擬合風險. .

6. Word2Vec

其有兩種模式：CBOW和Skip-gram
同時每種模式下都有兩種訓練技巧：層序softmax和負採樣

7. 圖像數據不足時的處理方法

從模型角度入手：

簡化模型
增加懲罰項
集成學習
Dropout

從數據角度入手：

做數據的旋轉、平移等操作
對圖像增加噪聲
改變圖像的亮度、清晰度等
GAN

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

《百面機器學習》第一章——特徵工程筆記（簡）

特徵工程

1. 特徵歸一化

2. 類別型特徵

3. 高維組合特徵的處理

4.組合特徵

5. 文本表示模型

6. Word2Vec

7. 圖像數據不足時的處理方法

TensorFlow1.x入門（1）——計算圖的創建與啓動

共指消解（一）

PyTorch入門（二）——張量的創建

TensorFlow1.x入門（2）——變量的定義及其操作

TensorFlow1.x入門（4）——線性迴歸

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

《百面機器學習》第一章——特徵工程 筆記（簡）

特徵工程

1. 特徵歸一化

2. 類別型特徵

3. 高維組合特徵的處理

4.組合特徵

5. 文本表示模型

6. Word2Vec

7. 圖像數據不足時的處理方法

《百面機器學習》第一章——特徵工程筆記（簡）