此次賽題內容爲二手車價格預測,本節主要理解字段及賽題要求。
數據字段
- SaleID - 銷售樣本ID
- name - 汽車編碼
- regDate - 汽車註冊時間
- model - 車型編碼
- brand - 品牌
- bodyType - 車身類型
- fuelType - 燃油類型
- gearbox - 變速箱
- power - 汽車功率
- kilometer - 汽車行駛公里
- notRepairedDamage - 汽車有尚未修復的損壞
- regionCode - 看車地區編碼
- seller - 銷售方
- offerType - 報價類型
- creatDate - 廣告發布時間
- price - 汽車價格
- v_0', 'v_1', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12', 'v_13','v_14' 【匿名特徵,包含v0-14在內15個匿名特徵】
數字全都脫敏處理,都爲label encoding形式,即數字形式
常見分類算法的評估指標:
- 對於二類分類器/分類算法,評價指標主要有accuracy,[precision,Recall,F-score,Pr曲線],ROC-AUC曲線
- 對於多類分類器/分類算法,評價指標主要有accuracy,[宏平均和微平均,F-score]
常見的迴歸預測類評估指標:平均絕對誤差(MAE),均方誤差(MSE),平均絕對百分誤差(MAPE),均方根誤差,R2(R-Square)