首先引入文本特徵提取類CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer
函數爲:
def count_demo():
#文本特徵提取count
data=["life is short,i like like you very much"]
#1.實例化一個轉化器類
transform=CountVectorizer();
#2.調用fit_transform
data_new=transform.fit_transform(data)
print("data_new:\n",data_new.toarray()) #默認爲稀疏矩陣,這是轉化爲二維數組形式
print("特徵名字:\n",transform.get_feature_names())
return None
但是CountVectorizer只能轉化英文的,不能轉化中文的,因爲是靠空格識別的。
中文文本特徵提取 需要引入jieba庫,需要進行安裝。