數據競賽入門 #task1 EDA

二手車交易預測-task1 EDA

採用pandas_profiling

pandas_profiling 簡直是不會編程的手殘黨福音啊,這次eda偷了一下懶,直接用這個,省去了許多代碼,就是運行時間太長,[31×150000]的數據運行了51min。。。,好吧看一下
warning提示
由於所有特徵都轉化爲label encoding,因此需要人爲地分出數字特徵與分類特徵,預測值位price。從這裏可以看出,bodytype、gearbox和fuelType的缺失值較多(3.0%、4.0%和5.8%),需考慮填充。offerType和seller幾乎全部都是相同值,傾斜嚴重;根據相關性分析(皮爾遜係數),v_4與v_13,v_7與v_2,v_6與v_1,v_9與v_4高度相關。
故在初次分析時,考慮刪去以下變量:offertype,seller,v_7,v_6與v_9,對於後三個匿名特徵,會在初步擬合後逐步加入驗證是否會存在因刪去遺漏的信息。
其中object變量 ‘notrepairDmage’ 存在 ‘-’ 字符,即爲缺失值,這裏需默認替換爲‘0’。
接下來查看預測值price的分佈
在這裏插入圖片描述
明顯不是正態分佈,故在迴歸之前需要進行轉化。這裏最符合的是無界約翰遜分佈(不知道這個知識點)
在這裏插入圖片描述
這裏的min5和max5明顯不符合現實規律,故將他們作爲異常值進行刪除。並進行對數轉換(小trick!可能可以將數據轉換爲正態分佈)

關於數字特徵與分類特徵,將他們人爲分開後查看他們unique分佈(不懂的知識點)

感悟:

EDA有幾部分內容:對數據的整體認識(大小、特徵數等);對各個特徵的缺失值、異常值和分佈(偏度、峯度)有大概的瞭解,以便做出相應的操作(特別是y_label);對整體數據做一個相對簡單的相關性分析,以便剔除高度相關性的變量,或對接下來的特徵工程有前瞻性的瞭解。
EDA部分的圖表相當重要,除了常用的分佈圖,bar,scatter,box,heatmap,還學到violin圖可以用於分類特徵的分析

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章