Datawhale-零基礎入門數據挖掘 - 二手車交易價格預測-- 賽題理解與數據分析(EDA)

Datawhale-零基礎入門數據挖掘 - 二手車交易價格預測-- 賽題理解與數據分析(EDA)

一、賽題理解

這裏轉載自楊煜隊伍的分享的思維導圖:
在這裏插入圖片描述

二、數據探索性分析(EDA)

2.1 介紹(摘自AI蝸牛車的Task2 數據分析)

數據探索在機器學習中我們一般稱爲EDA(Exploratory Data Analysis)

是指對已有的數據(特別是調查或觀察得來的原始數據)在儘量少的先驗假定下進行探索,通過作圖、製表、方程擬合、計算特徵量等手段探索數據的結構和規律的一種數據分析方法。

數據探索有利於我們發現數據的一些特性,數據之間的關聯性,對於後續的特徵構建是很有幫助的

1)對於數據的初步分析(直接查看數據,或.sum(), .mean(),.descirbe()等統計函數)可以從:樣本數量,訓練集數量,是否有時間特徵,是否是時許問題,特徵所表示的含義(非匿名特徵),特徵類型(字符類似,int,float,time),特徵的缺失情況(注意缺失的在數據中的表現形式,有些是空的有些是”NAN”符號等),特徵的均值方差情況。

2)分析記錄某些特徵值缺失佔比30%以上樣本的缺失處理,有助於後續的模型驗證和調節,分析特徵應該是填充(填充方式是什麼,均值填充,0填充,衆數填充等),還是捨去,還是先做樣本分類用不同的特徵模型去預測。

3)對於異常值做專門的分析,分析特徵異常的label是否爲異常值(或者偏離均值較遠或者事特殊符號),異常值是否應該剔除,還是用正常值填充,是記錄異常,還是機器本身異常等。

4)對於Label做專門的分析,分析標籤的分佈情況等。

5)進步分析可以通過對特徵作圖,特徵和label聯合做圖(統計圖,離散圖),直觀瞭解特徵的分佈情況,通過這一步也可以發現數據之中的一些異常值等,通過箱型圖分析一些特徵值的偏離情況,對於特徵和特徵聯合作圖,對於特徵和label聯合作圖,分析其中的一些關聯性。

2.2 本次比賽EDA過程的思維導圖

1)我自己做得對AI蝸牛車大佬的針對該比賽的EDA過程的思維導圖:
在這裏插入圖片描述

2)轉載自楊煜隊伍關於直播中EDA部分分享的思維導圖:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章