數據挖掘實戰--二手車交易價格預測(一)

數據挖掘實戰–二手車交易價格預測(一)

疫情影響,約好的實習去不成了。在家充電勢在必行,有在DataWhale內部的同學推薦參加這個數據挖掘的訓練營。想着自己從18年,就斷斷續續的想入ML的坑,剛好系統性的梳理一下自己的知識點。而且打卡形式是用Blog的方式,剛好克服一下自己的惰性。無數次的想寫,寫了100個字就又丟回草稿箱喫灰了。希望自己能把這兩週堅持下來,養成隨手記Blog的習慣。

賽題理解

影響二手車的售價原因有很多,常見的例如汽車的品牌、註冊日期、行駛里程數等等。我們的測試數據中在常見的15個影響因素以外還提供了15個匿名的參數。因此在構建特徵之前,對數據進行初步的可視化分析可以給我們選擇採用哪些參數來構建特徵工程意義非凡。選取合適的參數,可以保證在不過擬合的前提下,提高預測的準確性。

另外,在閱讀賽制相關的內容時,我發現它使用絕對平均誤差。這種評價指標會真實的反映出所有誤差的絕對值的平均值。它和我們常用RMSE的區別是它對所有的誤差都一視同仁,不像RMSE一樣會平滑掉細微的誤差。

關於這個賽題,似乎已經有很多人利用不同的數據來源和平臺的數據進行過探索,本次比賽的主要目的是通過這個完整的經典項目來讓大家系統的入門數據挖掘。下次遇到類似的問題,可以用同一個架構進行思考和挖掘。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章