《百面機器學習》第一章——特徵工程 筆記(簡)

1. 特徵歸一化

對數值類型的特徵做歸一化,最終將特徵的取值都統一到大致相等的數值區間內。

優點:

  1. 可將所有特徵消除量綱。
  2. 避免結果傾向於數值差別較大的特徵。

常見的方法有:

  1. 線性函數歸一化
  2. 零均值歸一化

適用於:邏輯迴歸、SVM、神經網絡
不適用於:決策樹

2. 類別型特徵

主要指的非數值型的離散特徵,如性別(男、女)。

常見的處理方法:

  1. 序號編碼:處理具有大小關係的數據。如:高、中、低,映射爲3、2、1。
  2. 獨熱編碼(one-hot):處理類別之間無大小關係的離散類別數據。
    1) 使用係數向量來節省空間
    2) 配合特徵選擇降低維度
  3. 二進制編碼:兩步走先賦值爲id,再將id二進制化。(相較於one-hot節省空間)

3. 高維組合特徵的處理

爲了提高複雜關係的擬合能力,通常將一階離散特徵兩兩組合,構成高階特徵。
如:
在這裏插入圖片描述
在這裏插入圖片描述

但是對於id類的特徵,優於其數量十分龐大,不適用

4.組合特徵

特徵的組合,如果是簡單的兩兩組合,會產生參數過多、過擬合的問題。並且並不是所有的特徵都是有意義的。
所以我們可以藉助決策樹的方法,來進行特徵的選擇與組合。

5. 文本表示模型

文本的表示是NLP中的一個基礎性的工作與技術,通常採用的方法有如下幾個:

  1. 詞袋模型
  2. TF-IDF值
  3. Word2Vec
  4. LDA

在抽取高層的語義特徵時,採用了CNN,比起DNN和RNN的優勢在於:

  1. 參數量少
  2. 訓練速度快
  3. 降低了過擬合風險. .

6. Word2Vec

其有兩種模式:CBOW和Skip-gram
同時每種模式下都有兩種訓練技巧:層序softmax和負採樣

7. 圖像數據不足時的處理方法

從模型角度入手:

  1. 簡化模型
  2. 增加懲罰項
  3. 集成學習
  4. Dropout

從數據角度入手:

  1. 做數據的旋轉、平移等操作
  2. 對圖像增加噪聲
  3. 改變圖像的亮度、清晰度等
  4. GAN
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章