【數據挖掘】二手車交易價格預測大賽-賽題理解

【數據挖掘】二手車交易價格預測大賽-賽題理解

賽題鏈接:https://tianchi.aliyun.com/competition/entrance/231784/introduction

1.賽題準備

  1. 任務目標:預測二手汽車交易價格
  2. 數據集:一個訓練集(15萬條)和一個測試集(5萬條),以及一個應提交的結果模板。訓練數據集中包含
  3. 解決思路:

2.賽題理解

2.1 賽題數據

該數據來自某交易平臺的二手車交易記錄,總數據量超過40w,包含31列變量信息,其中15列爲匿名變量。爲了保證比賽的公平性,將會從中抽取15萬條作爲訓練集,5萬條作爲測試集A,5萬條作爲測試集B,同時會對name、model、brand和regionCode等信息進行脫敏。

Field Description
SaleID 交易ID,唯一編碼
name 汽車交易名稱,已脫敏
regDate 汽車註冊日期,例如20160101,2016年01月01日
model 車型編碼,已脫敏
brand 汽車品牌,已脫敏
bodyType 車身類型:豪華轎車:0,微型車:1,廂型車:2,大巴車:3,敞篷車:4,雙門汽車:5,商務車:6,攪拌車:7
fuelType 燃油類型:汽油:0,柴油:1,液化石油氣:2,天然氣:3,混合動力:4,其他:5,電動:6
gearbox 變速箱:手動:0,自動:1
power 發動機功率:範圍 [ 0, 600 ]
kilometer 汽車已行駛公里,單位萬km
notRepairedDamage 汽車有尚未修復的損壞:是:0,否:1
regionCode 地區編碼,已脫敏
seller 銷售方:個體:0,非個體:1
offerType 報價類型:提供:0,請求:1
creatDate 汽車上線時間,即開始售賣時間
price 二手車交易價格(預測目標)
v系列特徵 匿名特徵,包含v0-14在內15個匿名特徵

2.2 評測標準

評價標準爲MAE(Mean Absolute Error)。

若真實值爲y=(y1,y2,...,yn)y=(y_1,y_2,...,y_n),模型的預測值爲y^=(y^1,y^2,,y^n)\widehat{y}=\left ( \widehat{y}_1, \widehat{y}_2,\cdots ,\widehat{y}_n\right ),那麼該模型的MAE計算公式爲
MAN=i=1nyiy^in MAN=\frac{\sum_{i=1}^n\left | y_i-\widehat{y}_i \right |}{n}

MAE越小,說明模型預測得越準確。

2.3 結果提交

提交格式與sample_submit.csv中的格式一致,以及提交文件後綴名爲csv。

形式如下:

SaleID,price
150000,687
150001,1250
150002,2580
150003,1178
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章