導入數據
數據清洗
- 查看數據,對數據有一個直觀的理解,初步發現一些問題;
例如:kaggle房價預測先查看每個數據的具體意義和數據類型和Exel對比。
kaggle房價預測數據集的具體描述 - 缺失值清洗
- 格式內容清洗(顯示格式不一致、存在不該有的字符、內容魚該字段應有內容不符)
- 邏輯錯誤清洗(去重、去除不合理值、修正矛盾內容、非需求內容刪掉、)
- 關聯性驗證
特徵工程
輸入特徵X,得到X‘。例如MFCC特徵提取。
使用sklearn做單機特徵工程
https://images2015.cnblogs.com/blog/927391/201604/927391-20160430145122660-830141495.jpg