TFIDF文本分析

TF-IDF是一種文本特徵提取統計算法。

什麼是詞頻?
詞頻(TF)即一個詞語在文本中出現的頻率。
文本總數(D):所蒐集的所有文本數。
含關鍵詞的文本數(Dw):含有某個詞(關鍵字)的文本數目。

公式:
TF-IDF(w)=TF(w)*IDF(w)
TF(w)=w在所有文件中出現的次數/該文件的總詞數。
IDF(w)=log(D/(Dw+1))//+1避免分母爲0

IDF的作用:
降低具有普遍性詞語的權重(比如一些語氣詞),提升具有個性化的詞的頻率。

總結一下就是:
一個詞的重要性和它在當前文檔中出現的次數成正比,和所有文檔中出現的次數成反比。

對於中文的文本進行處理的步驟:
1.分詞處理
2.生成向量
3.根據向量去做主題聚類

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章