更新索引 和 離散特徵值的處理 pd.get_dummies(X)

 

我們這裏爲了演示, 直接刪除含有空值的行, 這是會會出現索引不連續的情況, 如圖, 索引少了888, 這是我們需要更新索引

這時我們看到所有數據從891條變成了712條, 但是原始的所以竟然變成了新的特徵列, 這不是我們想要的, 只需添加一個參數即可改變這種情況

這纔是我們需要的. 但是這個方法返回更新索引的新數據, 原始數據並不會改變, 不信看看原始數據

好了, 我們現在說說離散特徵的處理, 雖然有

from sklearn.preprocessing import OneHotEncoder

from sklearn.preprocessing import OrdinalEncoder

但是最好還是使用get_dummies(x)的方法處理, 他只改變離散特徵爲one-hot, 並自動添加列名, 不用再手動拼接

這裏只處理了特徵, 標籤的處理可根據需要是否處理成one-hot進行相應的處理

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章