【數據挖掘】二手車交易價格預測大賽-賽題理解
賽題鏈接:https://tianchi.aliyun.com/competition/entrance/231784/introduction
1.賽題準備
- 任務目標:預測二手汽車交易價格
- 數據集:一個訓練集(15萬條)和一個測試集(5萬條),以及一個應提交的結果模板。訓練數據集中包含
- 解決思路:
2.賽題理解
2.1 賽題數據
該數據來自某交易平臺的二手車交易記錄,總數據量超過40w,包含31列變量信息,其中15列爲匿名變量。爲了保證比賽的公平性,將會從中抽取15萬條作爲訓練集,5萬條作爲測試集A,5萬條作爲測試集B,同時會對name、model、brand和regionCode等信息進行脫敏。
Field | Description |
---|---|
SaleID | 交易ID,唯一編碼 |
name | 汽車交易名稱,已脫敏 |
regDate | 汽車註冊日期,例如20160101,2016年01月01日 |
model | 車型編碼,已脫敏 |
brand | 汽車品牌,已脫敏 |
bodyType | 車身類型:豪華轎車:0,微型車:1,廂型車:2,大巴車:3,敞篷車:4,雙門汽車:5,商務車:6,攪拌車:7 |
fuelType | 燃油類型:汽油:0,柴油:1,液化石油氣:2,天然氣:3,混合動力:4,其他:5,電動:6 |
gearbox | 變速箱:手動:0,自動:1 |
power | 發動機功率:範圍 [ 0, 600 ] |
kilometer | 汽車已行駛公里,單位萬km |
notRepairedDamage | 汽車有尚未修復的損壞:是:0,否:1 |
regionCode | 地區編碼,已脫敏 |
seller | 銷售方:個體:0,非個體:1 |
offerType | 報價類型:提供:0,請求:1 |
creatDate | 汽車上線時間,即開始售賣時間 |
price | 二手車交易價格(預測目標) |
v系列特徵 | 匿名特徵,包含v0-14在內15個匿名特徵 |
2.2 評測標準
評價標準爲MAE(Mean Absolute Error)。
若真實值爲,模型的預測值爲,那麼該模型的MAE計算公式爲
MAE越小,說明模型預測得越準確。
2.3 結果提交
提交格式與sample_submit.csv中的格式一致,以及提交文件後綴名爲csv。
形式如下:
SaleID,price
150000,687
150001,1250
150002,2580
150003,1178