1. 數據預處理
1.1 缺失值處理
- 根據經驗值填充失數據
- 計算均值,中位數,衆數。。等填充數據
- 重新獲取缺失數據
1.2 數據格式/字符類型不符
1.3 邏輯錯誤
- 數據重複,去重操作
- 數據邏輯不合理,如存在相關性的值之間存在矛盾(eg: 身份證號碼和填寫生日)
1.4 非需求數據處理
1.5 文本數據
1.6 圖片數據
2. 數據變換
2.1 尺度縮放
- 0-1標準化,z標準化(使不同特徵的權重標準化)
- 歸一化操作對於向量
2.2 特徵變化
- 二值化,如將數據劃分爲0,1
- 分區間,如對於面積,價格等量,劃分區間處理
- 精度調整,如小數點後保留的位數
- log變換,處理大數據
3. 特徵表示與特徵交互
3.1 特徵表示
- 自然數編碼與one-hot編碼
自然數編碼對於有實際差別意義的場景;one-hot編碼在特徵空間中,座標之間的距離是相等的,適用於無實際差別意義的場景
3.2 特徵交互
- 兩個或多個特徵,構建出新特徵
- 特徵組合,多個特徵放在一起處理
4. 文本
4.1 文本特徵提取
- 詞袋:分詞,編號(每個詞出現的次數),將文本轉化爲特徵向量
- bag-of-ngram:對詞進行組合
4.2 詞頻統計TF-IDF
TF * log(IDF), 對IDF log變換以壓縮
TF詞頻=出現次數/文檔總次數
IDF詞頻=文檔總數/出現某詞文檔數
5. 圖像
6. 特徵選擇
- 考慮每個特徵的權重,以進行特徵選擇;
- 對特徵全集取子集,生成不同的組合;(控制變量)在模型既定時,加入不同的特徵,選擇準確度更高的