Sklearn的TfidfVectorizer中tfidf值的計算

TfidfVectorizer的實現是通過CountVectorizer和TfidfTransformer共同實現的。
其中TfidfTransformer實現了每個詞的tfidf值的計算。

下圖是官方文檔中,對tfidf值計算的說明:
在這裏插入圖片描述
可以看出默認的計算方法是
idf(d,t)=log[(1+n)1+df(d,t)]+1 idf(d,t) = \log\bigg[ \frac{(1+n)}{1+df(d,t)}\bigg] +1
其中:

  • nn:所有的文檔數目
  • df(d,t)df(d,t):包含詞tt的文檔數目

如果公式最後沒有+1+1的話,如果某個詞在所有文檔中都出現,且 log1=0\log1 = 0改詞的逆文檔頻率將爲0,從而導致改詞被忽略。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章