更新索引 和 离散特征值的处理 pd.get_dummies(X)

 

我们这里为了演示, 直接删除含有空值的行, 这是会会出现索引不连续的情况, 如图, 索引少了888, 这是我们需要更新索引

这时我们看到所有数据从891条变成了712条, 但是原始的所以竟然变成了新的特征列, 这不是我们想要的, 只需添加一个参数即可改变这种情况

这才是我们需要的. 但是这个方法返回更新索引的新数据, 原始数据并不会改变, 不信看看原始数据

好了, 我们现在说说离散特征的处理, 虽然有

from sklearn.preprocessing import OneHotEncoder

from sklearn.preprocessing import OrdinalEncoder

但是最好还是使用get_dummies(x)的方法处理, 他只改变离散特征为one-hot, 并自动添加列名, 不用再手动拼接

这里只处理了特征, 标签的处理可根据需要是否处理成one-hot进行相应的处理

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章