數據流水線:一系列的數據處理組件。組件間是獨立的、異步運行、組件間的接口只是數據容器
- 給定商業目標,確定輸出
- 劃定問題:監督or非監督or強化學習?分類or迴歸?強化or在線?
- 選擇性能指標 迴歸問題典型指標數均方根誤差(RMSE)、平均絕對誤差(MAE)
- 覈實假設
- 獲取數據(下載數據)
- 簡單查看數據結構(數據描述、數據屬性、)
- 創建測試集有不同的方法(隨機抽樣、分層抽樣)
- 探索數據、可視化、發現規律
1)查找關聯——計算屬性間的相似性,線性關係分正相關、負相關、不相關
2)屬性組合實驗——快速發現規律,以得到一個合理的原型 - 準備數據,數據清洗
1)數值屬性 缺失處理
2)文本屬性(類別屬性)準換爲數值 - 自定義轉換器
- 特徵縮放:兩種方式——線性函數歸一化;標準化
9.10.11可以合併自動化的轉換流水線 - 選擇並訓練模型訓練後,要評估
交叉驗證評估
分析欠擬合、還是過擬合
相應的解決方法
候選模型 - 模型微調(3種方式)
- 分析最佳模型和他們的誤差
- 測試集評估
- 項目預上線
- 啓動、監控、維護系統