數據分析流程
目的: 主要爲了熟悉特徵。通過統計分析和可視化工具瞭解變量間的相互關係以及變量與預測值之間的存在關係,爲接下來的特徵工程作鋪墊。
- 載入數據
- 數據總覽:
通過describe()來熟悉數據的相關統計量
通過info()來熟悉數據類型 - 判斷數據缺失和異常
查看每列的存在nan情況
異常值檢測 - 瞭解預測值的分佈
總體分佈概況(無界約翰遜分佈等)
查看skewness and kurtosis
查看預測值的具體頻數 - 數字特徵分析
相關性分析
查看幾個特徵得 偏度和峯值
每個數字特徵得分佈可視化
數字特徵相互之間的關係可視化
多變量互相迴歸關係可視化 - 類型特徵分析
unique分佈
類別特徵箱形圖可視化
類別特徵的小提琴圖可視化
類別特徵的柱形圖可視化類別
特徵的每個類別頻數可視化(count_plot)
動手實踐
分析過程依照“Datawhale”給出的官方例程走了一遍。使用notebook比較可觀,代碼可見:代碼傳送門