數據分析——特徵工程

1. 數據預處理

1.1 缺失值處理

  • 根據經驗值填充失數據
  • 計算均值,中位數,衆數。。等填充數據
  • 重新獲取缺失數據

1.2 數據格式/字符類型不符

1.3 邏輯錯誤

  • 數據重複,去重操作
  • 數據邏輯不合理,如存在相關性的值之間存在矛盾(eg: 身份證號碼和填寫生日)

1.4 非需求數據處理

1.5 文本數據

  • 無關數據
  • 髒數據

1.6 圖片數據

  • 圖片格式
  • 圖片本身質量

2. 數據變換

2.1 尺度縮放

  • 0-1標準化,z標準化(使不同特徵的權重標準化)
  • 歸一化操作對於向量

2.2 特徵變化

  • 二值化,如將數據劃分爲0,1
  • 分區間,如對於面積,價格等量,劃分區間處理
  • 精度調整,如小數點後保留的位數
  • log變換,處理大數據

3. 特徵表示與特徵交互

3.1 特徵表示

  • 自然數編碼與one-hot編碼
    自然數編碼對於有實際差別意義的場景;one-hot編碼在特徵空間中,座標之間的距離是相等的,適用於無實際差別意義的場景

3.2 特徵交互

  • 兩個或多個特徵,構建出新特徵
  • 特徵組合,多個特徵放在一起處理

4. 文本

4.1 文本特徵提取

  • 詞袋:分詞,編號(每個詞出現的次數),將文本轉化爲特徵向量
  • bag-of-ngram:對詞進行組合

4.2 詞頻統計TF-IDF

TF * log(IDF), 對IDF log變換以壓縮
TF詞頻=出現次數/文檔總次數 -- 歸一化效果,當前信息
IDF詞頻=文檔總數/出現某詞文檔數 -- 整個環境的信息

5. 圖像

  • 圖像的邊緣信息
  • 提起圖像色彩直方圖

6. 特徵選擇

  • 考慮每個特徵的權重,以進行特徵選擇;
  • 對特徵全集取子集,生成不同的組合;(控制變量)在模型既定時,加入不同的特徵,選擇準確度更高的
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章