官網:https://scikit-learn.org/stable/index.html
在經過了數據的篩選,數據的清洗、數據的特徵處理,給數據加標籤之後就得到了數據的訓練樣本了。在得到訓練樣本之後還是要對訓練樣本做進步一的處理。
需要考慮的問題有,訓練樣本的正負樣本數的比例是怎麼樣的。比如在實際的應用場景中正負樣本的比例的10:1,那麼在訓練數據的時候要保證訓練數據和測試數據的正負樣本比例也是在10:1,如果否則就要做降採樣或者增加數據處理
官網:https://scikit-learn.org/stable/index.html
在經過了數據的篩選,數據的清洗、數據的特徵處理,給數據加標籤之後就得到了數據的訓練樣本了。在得到訓練樣本之後還是要對訓練樣本做進步一的處理。
需要考慮的問題有,訓練樣本的正負樣本數的比例是怎麼樣的。比如在實際的應用場景中正負樣本的比例的10:1,那麼在訓練數據的時候要保證訓練數據和測試數據的正負樣本比例也是在10:1,如果否則就要做降採樣或者增加數據處理
特徵增強是對數據的進一步修改,我們開始清洗和增強數據。主要涉及的操作有 識別數據中的缺失值 刪除有害數據 輸入缺失值 對數據進行歸一化/標準化 1. 識別數據中的缺失值 特徵增強的第一種方法是識