零基礎入門數據挖掘--二手車交易價格預測之一--特徵工程

1)基於baseline,模型用xgboost,得分709。

   特徵包括:'gearbox', 'power', 'kilometer', 'v_0', 'v_1', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12', 'v_13', 'v_14'。

   baseline的jupyter鏈接:https://tianchi.aliyun.com/notebook-ai/detail?postId=95422

2)按照阿澤老師發佈的jupyter,做特徵工程,模型用xgboost,得分是626。

   特徵包括:'bodyType', 'brand', 'fuelType', 'gearbox', 'kilometer', 'model',
                    'offerType', 'power', 'seller', 'v_0', 'v_1', 'v_10', 'v_11', 'v_12', 'v_13',
                    'v_14', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'used_time',  'city',
                    'brand_amount', 'brand_price_max', 'brand_price_median', 'brand_price_min', 'brand_price_sum',
                    'brand_price_std', 'brand_price_average', 'power_bin'
   
   特徵工程jupyter鏈接:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.9.2c5266c2HRdfiO&postId=95501

3)在2)的基礎上,將預測結果爲負數的,設置爲10,得分是626,變化不大。可能是因爲這部分樣本比較少。


4)接下來是要改進的思路,想從一下幾個方面提升模型準確性

   思路一:xgboost訓練的時候,用的目標函數是R2,而比賽用的目標函數的MAE,xgboost允許自定義目標函數,但是要求目標函數二階可導,MAE不滿足二階可導的條件。所以換支持MAE作爲目標函數的模型,或者自定義接近MAE的二階可導目標函數。

   思路二:類別特徵做one-hot編碼。

   思路三:對價格做log處理之後進行預測,預測結果再做指數變換。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章