零基礎入門數據挖掘 - 二手車交易價格預測-數據探索

賽題理解

賽題以二手車市場爲背景，要求根據所給的二手車預測二手汽車的交易價格，這是一個典型的迴歸問題

熟悉數據及評價標準

一 、賽題數據
該數據來自某交易平臺的二手車交易記錄，總數據量超過40w，包含31列變量信息，其中15列爲匿名變量。爲了保證比賽的公平性，將會從中抽取15萬條作爲訓練集，5萬條作爲測試集A，5萬條作爲測試集B，同時會對name、model、brand和regionCode等信息進行脫敏。

字段表
Field	Description
SaleID	交易ID，唯一編碼
name	汽車交易名稱，已脫敏
regDate	汽車註冊日期，例如20160101，2016年01月01日
model	車型編碼，已脫敏
brand	汽車品牌，已脫敏
bodyType	車身類型：豪華轎車：0，微型車：1，廂型車：2，大巴車：3，敞篷車：4，雙門汽車：5，商務車：6，攪拌車：7
fuelType	燃油類型：汽油：0，柴油：1，液化石油氣：2，天然氣：3，混合動力：4，其他：5，電動：6
gearbox	變速箱：手動：0，自動：1
power	發動機功率：範圍 [ 0, 600 ]
kilometer	汽車已行駛公里，單位萬km
notRepairedDamage	汽車有尚未修復的損壞：是：0，否：1
regionCode	地區編碼，已脫敏
seller	銷售方：個體：0，非個體：1
offerType	報價類型：提供：0，請求：1
creatDate	汽車上線時間，即開始售賣時間
price	二手車交易價格（預測目標）
v系列特徵	匿名特徵，包含v0-14在內15個匿名特徵

二、評測標準
評價標準爲MAE(Mean Absolute Error)。
enter image description here
MAE越小，說明模型預測得越準確。

三、結果提交
提交前請確保預測結果的格式與sample_submit.csv中的格式一致，		 以及提交文件後綴名爲csv。

形式如下：

SaleID,price
150000,687
150001,1250
150002,2580
150003,1178

數據初步描述性探索統計

針對訓練數據做了如下統計：
（1）總體描述性統計
（2）檢查是否有重複樣本
（3）空值統計
（4）針對字符型指標-分組統計
（5）針對數值型指標-描述性統計及正態分佈性檢驗
（6）針對數值型指標進行異常值檢測
（7）針對全體指標進行共線性檢測

具體詳情可見：
二手車價格預測的數據初步統計ipynb的鏈接

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

零基礎入門數據挖掘 - 二手車交易價格預測-數據探索

零基礎入門數據挖掘 - 二手車交易價格預測-數據探索

[轉帖]

python列出centos7內存使用前50的進程信息

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

前端之css層疊樣式表

前端入門之~html,css,java script，瀏覽器工作原理

windows10安裝node-v10.16.0注意的問題

hive sql的優化

遞歸與while循環的區別

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結