零基礎入門數據挖掘 - 二手車交易價格預測-數據探索

零基礎入門數據挖掘 - 二手車交易價格預測-數據探索

  1. 賽題理解

    賽題以二手車市場爲背景,要求根據所給的二手車預測二手汽車的交易價格,這是一個典型的迴歸問題
    
  2. 熟悉數據及評價標準

    一 、賽題數據
    該數據來自某交易平臺的二手車交易記錄,總數據量超過40w,包含31列變量信息,其中15列爲匿名變量。爲了保證比賽的公平性,將會從中抽取15萬條作爲訓練集,5萬條作爲測試集A,5萬條作爲測試集B,同時會對name、model、brand和regionCode等信息進行脫敏。
    
    字段表
    Field	Description
    SaleID	交易ID,唯一編碼
    name	汽車交易名稱,已脫敏
    regDate	汽車註冊日期,例如20160101,2016年01月01日
    model	車型編碼,已脫敏
    brand	汽車品牌,已脫敏
    bodyType	車身類型:豪華轎車:0,微型車:1,廂型車:2,大巴車:3,敞篷車:4,雙門汽車:5,商務車:6,攪拌車:7
    fuelType	燃油類型:汽油:0,柴油:1,液化石油氣:2,天然氣:3,混合動力:4,其他:5,電動:6
    gearbox	變速箱:手動:0,自動:1
    power	發動機功率:範圍 [ 0, 600 ]
    kilometer	汽車已行駛公里,單位萬km
    notRepairedDamage	汽車有尚未修復的損壞:是:0,否:1
    regionCode	地區編碼,已脫敏
    seller	銷售方:個體:0,非個體:1
    offerType	報價類型:提供:0,請求:1
    creatDate	汽車上線時間,即開始售賣時間
    price	二手車交易價格(預測目標)
    v系列特徵	匿名特徵,包含v0-14在內15個匿名特徵
    
    二、評測標準
    評價標準爲MAE(Mean Absolute Error)。
    enter image description here
    MAE越小,說明模型預測得越準確。
    
    三、結果提交
    提交前請確保預測結果的格式與sample_submit.csv中的格式一致,		 以及提交文件後綴名爲csv。
    
    形式如下:
    
    SaleID,price
    150000,687
    150001,1250
    150002,2580
    150003,1178
    
  3. 數據初步描述性探索統計

    針對訓練數據做了如下統計:
    (1)總體描述性統計
    (2)檢查是否有重複樣本
    (3)空值統計
    (4)針對字符型指標-分組統計
    (5)針對數值型指標-描述性統計及正態分佈性檢驗
    (6)針對數值型指標進行異常值檢測
    (7)針對全體指標進行共線性檢測
    

    具體詳情可見:
    二手車價格預測的數據初步統計ipynb的鏈接

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章