一、確定特徵:(收集訓練數據)
1 > 數據探索:(爲什麼要進行數據探索呢:有助於選擇 合適的 數據預處理方法 和 建模方法)
(1)數據質量分析
-- 缺失值
-- 異常值
(2)特徵分佈特性的分析
-- 統計量
-- 直方圖
(3)特徵之間相關性分析
2 > 數據預處理:
3 > 特徵選擇:
二、確定模型:(暫定確切的模型)
三、模型訓練:(根據樣本數據計算模型參數)
四、模型評估: (根據測試數據,評估模型的預測性能)
note:深度學習可學習 feature
===========================================================================================
—–>確定特徵—->數據探索——>數據質量分析——–> 缺失值:
1.統計含有缺失值的樣本數目 及 缺失率
2.缺失值的處理:
1> 刪除含有(一個或多個)缺失值的樣本 (從 行 的角度考慮)
2> 刪除缺失值太多的特徵(從 列 的角度考慮)
3> 對缺失值進行插補
—— 均值mean(默認的方法)
—— 中位數median
—— 衆數 most_frequent
—— 固定值插補 (根據背景知識用某些常量進行插補)
—— 最近鄰插補 (尋找最相似的樣本,用該樣本對應的屬性進行插補)
—— 迴歸方法 (用沒有缺失的數據建立迴歸方程預測不完整的樣本數據)
—— 插值法 (利用該變量已有數據 建立合適的插值函數 進行插補)
4> 不處理(有些框架可處理數據缺失的情況,如:xgboost)