TF-IDF 算法介紹

TF-IDF(Term Frequency-Inverse Document Frequency, 詞頻-逆文件頻率).

是一種用於資訊檢索與資訊探勘的常用加權技術。TF-IDF是一種統計方法，用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨着它在文件中出現的次數成正比增加，但同時會隨着它在語料庫中出現的頻率成反比下降。

通俗的的說就是：一個詞在一篇文本中出現的次數越多，並且在這批文件中出現的頻率越低（普遍性較低），說明該詞對該文本的重要程度較高

TF-IDF的主要思想是：如果某個單詞在一篇文章中出現的頻率TF高，並且在其他文章中很少出現，則認爲此詞或者短語具有很好的類別區分能力，適合用來分類。

第一步：TF(term frequency)-詞頻

指的是某一個給定的詞語在該文件中出現的次數。這個數字通常會被歸一化(一般是詞頻除以文章總詞數), 以防止它偏向長的文件。（同一個詞語在長文件裏可能會比短文件有更高的詞頻，而不管該詞語重要與否。）

計算公式：

如果包含詞條t的文檔越少, IDF越大，則說明詞條具有很好的類別區分能力。某一特定詞語的IDF，可以由總文件數目除以包含該詞語之文件的數目，再將得到的商取對數得到。

計算公式

如果一個詞越常見，那麼分母就越大，逆文檔頻率就越小越接近0。分母之所以要加1，是爲了避免分母爲0（即所有文檔都不包含該詞）。log表示對得到的值取對數。

可以看到，TF-IDF與一個詞在文檔中的出現次數成正比，與該詞在整個語言中的出現次數成反比。所以，自動提取關鍵詞的算法就很清楚了，就是計算出文檔的每個詞的TF-IDF值，然後按降序排列，取排在最前面的幾個詞。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.