訓練集產生的onehot編碼特徵如何在測試集、預測集復現

原創

2020-06-16 09:33

數據處理中有時要用到onehot編碼，如果使用pandas自帶的get_dummies方法，訓練集產生的onehot編碼特徵會跟測試集、預測集不一樣，正確的方式是使用sklearn自帶的OneHotEncoder。

代碼

import pandas as pd
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder(handle_unknown='ignore')
data_train=pd.DataFrame({'職業':['數據挖掘工程師','數據庫開發工程師','數據分析師','數據分析師'],
                 '籍貫':['福州','廈門','泉州','龍巖']})
ohe.fit(data_train)#訓練規則
feature_names=ohe.get_feature_names(data_train.columns)#獲取編碼後的特徵名
data_train_onehot=pd.DataFrame(ohe.transform(data_train).toarray(),columns=feature_names)#應用規則在訓練集上

data_new=pd.DataFrame({'職業':['數據挖掘工程師','jave工程師'],
                 '籍貫':['福州','莆田']})
data_new_onehot=pd.DataFrame(ohe.transform(data_new).toarray(),columns=feature_names)#應用規則在預測集上

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

數據預處理-判斷csv文件中每一行中空格/（數據值）數量（python版）

一：問題描述：如下圖所示，我們要統計表格中每行數據值（例如藝術，設計，歷史是三個數據值）的個數二：空格替換逗號從表格中可以看到有些數據值之間是空格，有些數據值之間是逗號。我們利用excel本身有的搜

2020-07-07 11:24:12

數據預處理（16）_基於點雲數據的傳感器感知區域柵格化

對於移動機器人感知系統來說，我們要想辦法去描述感知區域，這裏提出一種柵格化的表示方法。比如有一個agv小車前後搭載了兩個rgbd傳感器，我們關心它前後2m，左右1m的感知區域，那麼可以把整個感知區域劃分爲40*80個格子的平面柵格

什么都会一点儿的自动驾驶工程狮

2020-07-06 10:55:48

【數據處理】PS動作功能（附：下雨效果）

一、PS批處理圖片 1.記錄動作這裏介紹下利用PS批量造數據，以添加雜色噪聲爲例。 1、打開Photoshop，打開一張圖片 2、打開動作面板（窗口>>動作）可以用快捷鍵 Alt+F9，然後新建動作，開始記錄 3、記錄開始後，不要

通信程序猿

2020-07-05 23:41:21

Numpy-通用函數

絕對值 abs fabs—>(浮點型) print(np.abs(ar1)) print(np.fabs(ar2)) [4 3 2 1 0 1 2 3] ******************** [[1. 2. 3.

2020-07-05 03:09:52

Python機器學習-數據觀察（一）

不管是數據分析還是機器學習，拿到一份數據前應該先了解數據的背景，瞭解業務需求，再者就是查看數據了。從多維度查看數據，可以讓自己對數據心中有數，可以更好地進行數據預處理。 1.1、數據的讀取 # 讀取數據，讀取壓縮的格式 df =

2020-07-05 03:09:41

數據預處理（8）_ubuntu16.0.4系統下運行velodyneHDL 32E激光雷達流程

1.安裝驅動 sudo apt-get install ros-kinetic-velodyne 結果： lzy@lzy-Lenovo-ideapad-Y700-17ISK:~$ sudo apt-get install ros

什么都会一点儿的自动驾驶工程狮

2020-07-04 17:38:35

數據預處理（15）_解析GPS數據並作爲里程計信息發佈

在機器人建圖過程中，需要激光傳感器和機器人里程信息，里程信息指的是機器人相對於某一個點的距離。一般來說，本車座標系“base_link"原點相對於odom座標系原點的距離。在導航功能包集中消息類型爲nav_msgs/Odometr

什么都会一点儿的自动驾驶工程狮

2020-07-04 17:38:35

pandas實現多行合併一行、一行拆分多行

多行合併一行 import pandas as pd #構造數據 data=pd.DataFrame({'id':[1,1,2,2],'品牌':['A','B','C','D']}) #合併數據 data_new=data.group

2020-07-03 18:34:01

python實現smote處理正負樣本失衡問題

機器學習中難免遇到正負樣本不平衡問題，處理辦法通常有梁總，一：過採樣，增加正樣本數據；二：欠採樣，減少負樣本數據，缺點是會丟失一些重要信息。smote屬於過採樣。代碼 # from imblearn.over_sampl

2020-07-03 18:34:01

數據預處理-Excel表中如何在數據中批量添加(括號)/「尖括號」等

1.問題： Excel表中如何在數據中批量添加(括號)/<尖括號>等 2.解決辦法：假設數據在A列，在B1輸入="<"&A1&">"，然後通過右下角往下填充就可以了。 3.樣例：

2020-07-03 11:47:49

數據預處理-Excel 兩列合併爲一列中間加空格

一：問題描述把Excel中兩列數據合併爲一列，並且以空格隔開。二：方法一把Excel中的兩列數據複製粘貼到txt文本文檔中，再從txt文本文檔中把數據粘貼到excel中的某一列。【注意】

2020-07-03 11:47:49

day 6 處理分類型數據

# 　將文字型數據轉換爲數值型 import pandas as pd from sklearn.impute import SimpleImputer data = pd.read_csv('缺失預處理數據22222.csv'

口袋里的小小哥

2020-07-03 03:13:47

數據預處理（17）_座標轉換，tf::StampedTransform =」 Eigen::Matrix4f

在開發的過程中，通常會遇到座標轉換的問題，比如從傳感器座標系src，到車體座標系ref。通常可以分爲3步：第一步：監聽TF bool getTF(const ros::Time&query_time,const std::str

会飞的猪大头

2020-07-03 00:41:37

機器學習~KNN算法的更多思考

文章目錄KNN算法引出的問題數據歸一化最值歸一化（normalization）均值方差歸一化（standardization）sklearn實現缺失數據處理分類特徵處理參考 KNN算法引出的問題迴歸我們最開始的KNN算法例子，具

2020-07-02 09:52:07

數據處理-對Excel文件讀取和操作和存儲（python版）

一：利用python讀取Excel中.xls文件中所有數據 #encoding=utf-8 import xlrd import xlwt from xlwt import * fileName="test01.xls" bk=xlrd

2020-06-29 02:14:28

24小時熱門文章

最新文章

最新評論文章