零基礎入門數據挖掘 - 二手車交易價格預測-數據探索
-
賽題理解
賽題以二手車市場爲背景,要求根據所給的二手車預測二手汽車的交易價格,這是一個典型的迴歸問題
-
熟悉數據及評價標準
一 、賽題數據 該數據來自某交易平臺的二手車交易記錄,總數據量超過40w,包含31列變量信息,其中15列爲匿名變量。爲了保證比賽的公平性,將會從中抽取15萬條作爲訓練集,5萬條作爲測試集A,5萬條作爲測試集B,同時會對name、model、brand和regionCode等信息進行脫敏。 字段表 Field Description SaleID 交易ID,唯一編碼 name 汽車交易名稱,已脫敏 regDate 汽車註冊日期,例如20160101,2016年01月01日 model 車型編碼,已脫敏 brand 汽車品牌,已脫敏 bodyType 車身類型:豪華轎車:0,微型車:1,廂型車:2,大巴車:3,敞篷車:4,雙門汽車:5,商務車:6,攪拌車:7 fuelType 燃油類型:汽油:0,柴油:1,液化石油氣:2,天然氣:3,混合動力:4,其他:5,電動:6 gearbox 變速箱:手動:0,自動:1 power 發動機功率:範圍 [ 0, 600 ] kilometer 汽車已行駛公里,單位萬km notRepairedDamage 汽車有尚未修復的損壞:是:0,否:1 regionCode 地區編碼,已脫敏 seller 銷售方:個體:0,非個體:1 offerType 報價類型:提供:0,請求:1 creatDate 汽車上線時間,即開始售賣時間 price 二手車交易價格(預測目標) v系列特徵 匿名特徵,包含v0-14在內15個匿名特徵 二、評測標準 評價標準爲MAE(Mean Absolute Error)。 enter image description here MAE越小,說明模型預測得越準確。 三、結果提交 提交前請確保預測結果的格式與sample_submit.csv中的格式一致, 以及提交文件後綴名爲csv。 形式如下: SaleID,price 150000,687 150001,1250 150002,2580 150003,1178
-
數據初步描述性探索統計
針對訓練數據做了如下統計: (1)總體描述性統計 (2)檢查是否有重複樣本 (3)空值統計 (4)針對字符型指標-分組統計 (5)針對數值型指標-描述性統計及正態分佈性檢驗 (6)針對數值型指標進行異常值檢測 (7)針對全體指標進行共線性檢測
具體詳情可見:
二手車價格預測的數據初步統計ipynb的鏈接