《大數據》筆記 TF.IDF

TF.IDF在Lucene中被用來計算關鍵詞和檢索結果的相關度。

TF = Term Frequency

反映關鍵詞在某篇文檔中出現的頻率,頻率越高,自然就越相關

TF不是(關鍵詞出現個數)/(所有詞個數),而是做了歸一化的(關鍵詞出現個數)/(這篇文檔中出現次數最多的那個詞的出現個數)。


IDF = Inverse Document Frequency

首先看DF

DF是(出現了關鍵詞的文檔數)/(總文檔數)

因此DF越大,說明這個詞越常見,而常見的詞不能很好的反映相關度(比如”的“字可能在某篇文檔處出現了100次,但它幾乎在所有文檔中都出現,此時的DF=1,說明”的“字不能很好的反映相關度)

IDF =log (1/(我所定義的DF)) 越高相關度越大


TF * IDF反映詞與文檔的相關度,越大越相關。

如”故鄉的雲“,分爲”故鄉“,”的“,”雲“,TF.IDF爲它們的權重,TF.IDF越大說明這個詞越重要,由常識可知,”故鄉“和“雲”的TF.IDF將大於"的"字,所以前兩個詞是反映文檔內容的關鍵詞。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章