二手車交易預測-task1 EDA

採用pandas_profiling

pandas_profiling 簡直是不會編程的手殘黨福音啊，這次eda偷了一下懶，直接用這個，省去了許多代碼，就是運行時間太長，[31×150000]的數據運行了51min。。。，好吧看一下

由於所有特徵都轉化爲label encoding，因此需要人爲地分出數字特徵與分類特徵，預測值位price。從這裏可以看出，bodytype、gearbox和fuelType的缺失值較多（3.0%、4.0%和5.8%），需考慮填充。offerType和seller幾乎全部都是相同值，傾斜嚴重；根據相關性分析（皮爾遜係數），v_4與v_13，v_7與v_2，v_6與v_1，v_9與v_4高度相關。
故在初次分析時，考慮刪去以下變量：offertype，seller,v_7,v_6與v_9，對於後三個匿名特徵，會在初步擬合後逐步加入驗證是否會存在因刪去遺漏的信息。
其中object變量 ‘notrepairDmage’ 存在 ‘-’ 字符，即爲缺失值，這裏需默認替換爲‘0’。
接下來查看預測值price的分佈

明顯不是正態分佈，故在迴歸之前需要進行轉化。這裏最符合的是無界約翰遜分佈（不知道這個知識點）

這裏的min5和max5明顯不符合現實規律，故將他們作爲異常值進行刪除。並進行對數轉換（小trick！可能可以將數據轉換爲正態分佈）

關於數字特徵與分類特徵，將他們人爲分開後查看他們unique分佈（不懂的知識點）

感悟：

EDA有幾部分內容：對數據的整體認識（大小、特徵數等）；對各個特徵的缺失值、異常值和分佈（偏度、峯度）有大概的瞭解，以便做出相應的操作（特別是y_label）；對整體數據做一個相對簡單的相關性分析，以便剔除高度相關性的變量，或對接下來的特徵工程有前瞻性的瞭解。
EDA部分的圖表相當重要，除了常用的分佈圖，bar，scatter，box，heatmap，還學到violin圖可以用於分類特徵的分析

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據競賽入門 #task1 EDA

二手車交易預測-task1 EDA

採用pandas_profiling

感悟：

數據競賽入門 #task1 EDA

統計學基本知識 # datawhale 任務三

統計學基本知識#datawhale 任務一，二

統計學基本知識 #datawhale 任務四

python新手智能猜數代碼練習

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結