對於文本數據進行機器學習算法分析之前我們需要對文本數據進行數值化,下面是一種比較常用的使用數值替換文本的方法。
import pandas as pd
from collections import defaultdict
train = pd.read_csv(r'E:\MathModel\MathModelingData\D\process\all_copy.csv')
d = defaultdict(LabelEncoder) # 數值化
X_trans = X.apply(lambda x: d[x.name].fit_transform(x.astype(str))) # 文本數值化處理符號
X_trans.to_csv(r'E:\MathModel\MathModelingData\D\process\all_copy_numeralization.csv', encoding='utf-8', index=False, index_label=None)