上手機器學習項目——預測房價

數據流水線:一系列的數據處理組件。組件間是獨立的、異步運行、組件間的接口只是數據容器

  1. 給定商業目標,確定輸出
  2. 劃定問題:監督or非監督or強化學習?分類or迴歸?強化or在線?
  3. 選擇性能指標 迴歸問題典型指標數均方根誤差(RMSE)、平均絕對誤差(MAE)
  4. 覈實假設
  5. 獲取數據(下載數據)
  6. 簡單查看數據結構(數據描述、數據屬性、)
  7. 創建測試集有不同的方法(隨機抽樣、分層抽樣)
  8. 探索數據、可視化、發現規律
    1)查找關聯——計算屬性間的相似性,線性關係分正相關、負相關、不相關
    2)屬性組合實驗——快速發現規律,以得到一個合理的原型
  9. 準備數據,數據清洗
    1)數值屬性 缺失處理
    2)文本屬性(類別屬性)準換爲數值
  10. 自定義轉換器
  11. 特徵縮放:兩種方式——線性函數歸一化;標準化
    9.10.11可以合併自動化的轉換流水線
  12. 選擇並訓練模型訓練後,要評估
    交叉驗證評估
    分析欠擬合、還是過擬合
    相應的解決方法
    候選模型
  13. 模型微調(3種方式)
  14. 分析最佳模型和他們的誤差
  15. 測試集評估
  16. 項目預上線
  17. 啓動、監控、維護系統
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章