tfidf的數學原理

參考https://blog.csdn.net/zrc199021/article/details/53728499

Tfidf的數學原理   是一種統計方面的知識。

Tf (term frequency)詞頻:指的是一個詞語在該文件中出現的頻率。頻率越高,並不能代表該詞語比較重要,如很多無用的詞,頻率比較高,如含“的”。

逆向文檔頻率(inverse document frequency, idf)是一個詞語普遍重要性的度量。某一特定詞的idf,可以由總文件數目除以包含該詞語之文件的數目,再將取以10爲底的對數得到。含義是:如果包含該詞的文檔越少,idf就會越大,說明該詞條具有很好的類別區分能力。

Tfidfi,j=tfi,j*idfi       

I 表示單詞。j表示文件。

Tfidf思想:是一種加權方法。某一特定文件內的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產生出高權重的TFidf。因此,tfidf傾向於過濾掉常見的詞語,保留重要的詞語。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章