python機器學習之文本特徵提取CountVectorizer

首先引入文本特徵提取類CountVectorizer

from sklearn.feature_extraction.text import CountVectorizer

函數爲:

def count_demo():
    #文本特徵提取count
    data=["life is short,i like like you very much"]
    #1.實例化一個轉化器類
    transform=CountVectorizer();
    #2.調用fit_transform
    data_new=transform.fit_transform(data)
    print("data_new:\n",data_new.toarray()) #默認爲稀疏矩陣,這是轉化爲二維數組形式
    print("特徵名字:\n",transform.get_feature_names())
    return None

但是CountVectorizer只能轉化英文的,不能轉化中文的,因爲是靠空格識別的。

中文文本特徵提取 需要引入jieba庫,需要進行安裝。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章