文本數值化

對於文本數據進行機器學習算法分析之前我們需要對文本數據進行數值化,下面是一種比較常用的使用數值替換文本的方法。

import pandas as pd
from collections import defaultdict
train = pd.read_csv(r'E:\MathModel\MathModelingData\D\process\all_copy.csv')
d = defaultdict(LabelEncoder)  # 數值化
X_trans = X.apply(lambda x: d[x.name].fit_transform(x.astype(str)))  # 文本數值化處理符號
X_trans.to_csv(r'E:\MathModel\MathModelingData\D\process\all_copy_numeralization.csv', encoding='utf-8', index=False, index_label=None)

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章