機器學習任務的一般步驟

一、確定特徵:(收集訓練數據)

1 > 數據探索:(爲什麼要進行數據探索呢:有助於選擇 合適的 數據預處理方法 和 建模方法)

    (1)數據質量分析
          -- 缺失值
          -- 異常值
    (2)特徵分佈特性的分析
          -- 統計量
          -- 直方圖
    (3)特徵之間相關性分析


2 > 數據預處理:

3 > 特徵選擇:

二、確定模型:(暫定確切的模型)

三、模型訓練:(根據樣本數據計算模型參數)

四、模型評估: (根據測試數據,評估模型的預測性能)

note:深度學習可學習 feature

===========================================================================================

—–>確定特徵—->數據探索——>數據質量分析——–> 缺失值:

1.統計含有缺失值的樣本數目  及  缺失率

2.缺失值的處理:

    1> 刪除含有(一個或多個)缺失值的樣本 (從 行 的角度考慮)

    2> 刪除缺失值太多的特徵(從 列 的角度考慮)

    3> 對缺失值進行插補

        —— 均值mean(默認的方法)
        —— 中位數median
        —— 衆數 most_frequent
        —— 固定值插補 (根據背景知識用某些常量進行插補)
        —— 最近鄰插補 (尋找最相似的樣本,用該樣本對應的屬性進行插補)
        —— 迴歸方法 (用沒有缺失的數據建立迴歸方程預測不完整的樣本數據)
        —— 插值法 (利用該變量已有數據 建立合適的插值函數 進行插補)

    4> 不處理(有些框架可處理數據缺失的情況,如:xgboost)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章