零基礎入門數據挖掘--二手車交易價格預測之一--特徵工程

原創

2020-06-16 06:40

1）基於baseline，模型用xgboost，得分709。

特徵包括：'gearbox', 'power', 'kilometer', 'v_0', 'v_1', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12', 'v_13', 'v_14'。

baseline的jupyter鏈接：https://tianchi.aliyun.com/notebook-ai/detail?postId=95422

2）按照阿澤老師發佈的jupyter，做特徵工程，模型用xgboost，得分是626。

特徵包括：'bodyType', 'brand', 'fuelType', 'gearbox', 'kilometer', 'model',
'offerType', 'power', 'seller', 'v_0', 'v_1', 'v_10', 'v_11', 'v_12', 'v_13',
'v_14', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'used_time', 'city',
'brand_amount', 'brand_price_max', 'brand_price_median', 'brand_price_min', 'brand_price_sum',
'brand_price_std', 'brand_price_average', 'power_bin'

特徵工程jupyter鏈接：https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.9.2c5266c2HRdfiO&postId=95501

3）在2）的基礎上，將預測結果爲負數的，設置爲10，得分是626，變化不大。可能是因爲這部分樣本比較少。

4）接下來是要改進的思路，想從一下幾個方面提升模型準確性

思路一：xgboost訓練的時候，用的目標函數是R2，而比賽用的目標函數的MAE，xgboost允許自定義目標函數，但是要求目標函數二階可導，MAE不滿足二階可導的條件。所以換支持MAE作爲目標函數的模型，或者自定義接近MAE的二階可導目標函數。

思路二：類別特徵做one-hot編碼。

思路三：對價格做log處理之後進行預測，預測結果再做指數變換。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

零基礎入門數據挖掘--二手車交易價格預測之一--特徵工程

Datawhale 零基礎入門CV賽事學習筆記--第4次打卡模型訓練與驗證

Datawhale 零基礎入門CV賽事學習筆記--第5次打卡

零基礎入門數據挖掘--二手車交易價格預測之三--模型融合

Datawhale 零基礎入門CV賽事學習筆記--第3次打卡-字符識別模型

零基礎入門數據挖掘--二手車交易價格預測之一--特徵工程

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結