sklearn基礎（一）文本特徵提取函數CountVectorizer()和TfidfVectorizer()

原創

2018-12-28 23:27

CountVectorizer()函數

CountVectorizer()函數只考慮每個單詞出現的頻率；然後構成一個特徵矩陣，每一行表示一個訓練文本的詞頻統計結果。其思想是，先根據所有訓練文本，不考慮其出現順序，只將訓練文本中每個出現過的詞彙單獨視爲一列特徵，構成一個詞彙表(vocabulary list)，該方法又稱爲詞袋法(Bag of Words)。

我們舉一個例子：

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

texts=["orange banana apple grape","banana apple apple","grape", 'orange apple'] 
cv = CountVectorizer()
cv_fit=cv.fit_transform(texts)
print(cv.vocabulary_)
print(cv_fit)
print(cv_fit.toarray())

輸出如下：

{'orange': 3, 'banana': 1, 'apple': 0, 'grape': 2} #這裏是根據首字母順序，將texts變量中所有單詞進行排序，apple首字母爲a所以 # 排第一，banana首字母爲b所以排第二
(0, 2)   1 # (0, 2) 1 中0表示第一個字符串"orange banana apple grape"；2對應上面的'grape': 2；1表示出現次數1。整體理 # 解爲第一字符串的順序爲二的詞語在出現次數爲1
(0, 0)   1
(0, 1)   1
(0, 3)   1
(1, 0)   2
(1, 1)   1
(2, 2)   1
(3, 0)   1
(3, 3)   1
[[1 1 1 1] # 第一個字符串，排名0,1,2,3詞彙（apple，banana，grape，orange）出現的頻率都爲1
[2 1 0 0] #第二個字符串，排名0,1,2,3詞彙（apple，banana，grape，orange）出現的頻率爲2,1,00
[0 0 1 0]
[1 0 0 1]]

TfidfVectorizer()函數

TfidfVectorizer()基於tf-idf算法。此算法包括兩部分tf和idf，兩者相乘得到tf-idf算法。

tf算法統計某訓練文本中，某個詞的出現次數，計算公式如下：

或

idf算法，用於調整詞頻的權重係數，如果一個詞越常見，那麼分母就越大，逆文檔頻率就越小越接近0。

tf-idf算法=tf算法 * idf算法。

我們依舊採用上面的例子：

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

texts=["orange banana apple grape","banana apple apple","grape", 'orange apple']
cv = TfidfVectorizer()
cv_fit=cv.fit_transform(texts)
print(cv.vocabulary_)
print(cv_fit)
print(cv_fit.toarray())

輸出如下：

{'orange': 3, 'banana': 1, 'apple': 0, 'grape': 2}
(0, 3)   0.5230350301866413 #（0,3）表示第一個字符串的orange詞語，其TF=1/4，IDF中總樣本和包含有改詞的文檔數，目 # 前也不知道是如何得出，望有知道的人能評論告之。最後得出結果0.5230350301866413
(0, 1)   0.5230350301866413
(0, 0)   0.423441934145613
(0, 2)   0.5230350301866413
(1, 1)   0.5254635733493682
(1, 0)   0.8508160982744233
(2, 2)   1.0
(3, 3)   0.7772211620785797
(3, 0)   0.6292275146695526
[[0.42344193 0.52303503 0.52303503 0.52303503]
[0.8508161 0.52546357 0. 0. ]
[0. 0. 1. 0. ]
[0.62922751 0. 0. 0.77722116]]

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

sklearn基礎（一）文本特徵提取函數CountVectorizer()和TfidfVectorizer()

windows系統下pycharm遠程訪問linux系統下jupyter notebook，並調用spark平臺（五）pycharm調用juypter notebook

機器學習-支持向量機(線性分類)

機器學習-決策樹建立（一）

企業微信-拉取企業微信聊天記錄

VUE經典開源項目

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結