《大數據》筆記 TF.IDF

TF.IDF在Lucene中被用來計算關鍵詞和檢索結果的相關度。

TF = Term Frequency

反映關鍵詞在某篇文檔中出現的頻率，頻率越高，自然就越相關

TF不是（關鍵詞出現個數）/（所有詞個數），而是做了歸一化的（關鍵詞出現個數）/（這篇文檔中出現次數最多的那個詞的出現個數）。

IDF = Inverse Document Frequency

首先看DF

DF是（出現了關鍵詞的文檔數）/（總文檔數）

因此DF越大，說明這個詞越常見，而常見的詞不能很好的反映相關度（比如”的“字可能在某篇文檔處出現了100次，但它幾乎在所有文檔中都出現，此時的DF=1，說明”的“字不能很好的反映相關度）

IDF =log (1/（我所定義的DF）) 越高相關度越大

TF * IDF反映詞與文檔的相關度，越大越相關。

如”故鄉的雲“，分爲”故鄉“，”的“，”雲“，TF.IDF爲它們的權重，TF.IDF越大說明這個詞越重要，由常識可知，”故鄉“和“雲”的TF.IDF將大於"的"字，所以前兩個詞是反映文檔內容的關鍵詞。