這是一個入門級別的數據分析與挖掘案例,整個過程如下:
首先是拿到數據後
(一) 數據讀取(大概看一下數據量啊 數據的各項指標啊)
- 讀取數據並展示
- 統計數據各項指標
- 要明確目標是要幹什麼,這樣就可以有目的的查看各項指標
(二)特徵理解與分析
- 單特徵統計分析(分析每個單個特徵和標籤(這裏是存活與否)的關係,將數據可視化出來,便於後面的特徵選擇)
- 多變量統計分析(融合幾個單特徵,看與標籤的關係,沒準兒有隱藏的特徵)
(三)數據預處理
- 缺失數據填充(可以填平均值、中值、衆數、經驗值、自己做個簡單的迴歸預測、或者粗暴點直接丟掉(在大量缺失的情況下))
- 特徵標準化/歸一化(有利於後面模型的收斂速度)
- 挑選有價值的特徵(可以根據前面的特徵理解與分析,sklearn.feature_selection中有個SelectKBest的包,可以輔助選擇重要特徵)
- 分析特徵值之間的相關性
(四)建立模型
- 特徵數據與標籤準備(將特徵值轉換成數值型的,比如存活與否替換成1,0;特徵中的性別男女替換成1,0等等)
- 數據集切分(可以用KFold或cross_val_score進行交叉驗證)
- 多種建模方法對比(LinearRegression、LogisticRegression、RandomForest、GradientBoostingClassifier等)
- 集成模型(、RandomForest、GradientBoostingClassifier等)
補充一下:還可以做特徵選擇