[nlp] sklearn——CountVectorizer

CountVectorize(詞頻矩陣)

CountVectorizer是屬於常見的特徵數值計算類,是一個文本特徵提取方法
對於每一個訓練文本,它只考慮每種詞語 在該訓練文本中 出現的頻率

CountVectorizer會將文本中的詞語轉換爲詞頻矩陣,它通過fit_transform函數計算各個詞語出現的次數

CountVectorizer(input='content', encoding='utf-8',  decode_error='strict', strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None, 
token_pattern='(?u)\b\w\w+\b', ngram_range=(1, 1), analyzer='word', max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, dtype=<class 'numpy.int64'>)

CountVectorizer類的參數很多,分爲三個處理步驟:preprocessing、tokenizing、n-grams generation.
一般要設置的參數是:ngram_range , max_df,min_df,max_features等,具體情況具體分析。

在這裏插入圖片描述
max_df : 可以設置爲範圍在[0,1]的float,也可以設置爲沒有範圍限制的int , 默認爲1.0。
這個參數作爲一個閾值,如果某個詞的詞頻 > max_df , 則這個詞不會被當作關鍵詞
如果這個參數是float,則表示詞出現的詞數與語料庫文檔數的百分比。
如果這個參數是 int ,則表示詞出現的詞數。
如果參數已經給定了vocabulary,則這個參數無效。
min_df : 類似於max_df, 不同之處在於如果某個詞的document frequence < min_df ,則這個詞不會被
當作關鍵詞
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章