【數據挖掘實戰】泰坦尼克號獲救預測

這是一個入門級別的數據分析與挖掘案例,整個過程如下:

首先是拿到數據後

(一) 數據讀取(大概看一下數據量啊 數據的各項指標啊)

  • 讀取數據並展示
  • 統計數據各項指標
  • 要明確目標是要幹什麼,這樣就可以有目的的查看各項指標

(二)特徵理解與分析

  • 單特徵統計分析(分析每個單個特徵和標籤(這裏是存活與否)的關係,將數據可視化出來,便於後面的特徵選擇)
  • 多變量統計分析(融合幾個單特徵,看與標籤的關係,沒準兒有隱藏的特徵)

 

(三)數據預處理

  • 缺失數據填充(可以填平均值、中值、衆數、經驗值、自己做個簡單的迴歸預測、或者粗暴點直接丟掉(在大量缺失的情況下))
  • 特徵標準化/歸一化(有利於後面模型的收斂速度)
  • 挑選有價值的特徵(可以根據前面的特徵理解與分析,sklearn.feature_selection中有個SelectKBest的包,可以輔助選擇重要特徵)
  • 分析特徵值之間的相關性

 

(四)建立模型

  • 特徵數據與標籤準備(將特徵值轉換成數值型的,比如存活與否替換成1,0;特徵中的性別男女替換成1,0等等)
  • 數據集切分(可以用KFold或cross_val_score進行交叉驗證)
  • 多種建模方法對比(LinearRegression、LogisticRegression、RandomForest、GradientBoostingClassifier等)
  • 集成模型(、RandomForest、GradientBoostingClassifier等)

補充一下:還可以做特徵選擇

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章