tfidf的数学原理

参考https://blog.csdn.net/zrc199021/article/details/53728499

Tfidf的数学原理   是一种统计方面的知识。

Tf (term frequency)词频:指的是一个词语在该文件中出现的频率。频率越高,并不能代表该词语比较重要,如很多无用的词,频率比较高,如含“的”。

逆向文档频率(inverse document frequency, idf)是一个词语普遍重要性的度量。某一特定词的idf,可以由总文件数目除以包含该词语之文件的数目,再将取以10为底的对数得到。含义是:如果包含该词的文档越少,idf就会越大,说明该词条具有很好的类别区分能力。

Tfidfi,j=tfi,j*idfi       

I 表示单词。j表示文件。

Tfidf思想:是一种加权方法。某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TFidf。因此,tfidf倾向于过滤掉常见的词语,保留重要的词语。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章