TF-IDF 提取文本關鍵詞

TF-IDF是一種統計方法,用於評估某個詞語對於一個文本集或者一個語料庫中的一個文件的重要程度,字詞的重要性隨着其在文本的出現次數成比例增加,但是又會隨着其在語料庫中的頻率反比率下降,多爲搜索引擎應用,作爲文件和用戶搜索的相關程度的度量和評級。

算法由二部分定義:

TF:詞頻。一個字詞在一個文本中出現的頻率。

TF = 某詞在文章出現的次數/文章中總詞數

但是在文章中出現最多的詞語很可能是:“的”,“地”,“是”等詞語,但是這樣的詞語對於文章的關鍵性沒有什麼具體的幫助,這樣的詞語稱之爲停用詞。在文章中需要將停用詞進行過濾,纔可以進行評估。

經過上述分析,可以簡單的知道文本提取關鍵詞是怎麼回事,但是對於停用詞進行過濾之後,所剩下的詞語的詞頻很可能是相同的:例如“中國”、“足球”、“出現”在經過過濾之後的出現次數是一樣的,但是由生活交流可以瞭解到 ”出現“相對於"中國"、“足球”不是那麼的常見,所以可以分析出,“出現”這個詞語對於這篇文章的重要性較大,所以需要通過一個衡量權值進行調整,引入IDF。

IDF:逆向文檔頻率,對於詞頻賦予權重。對於比較常見的詞語賦予較小的權重,而相對應不常見的詞語賦予較大的權重,在進行IDF的計算的時候需要一個語料庫。

IDF = log(語料庫文檔總數/(包含該詞文檔總數)+1)包含該詞文檔總數可以爲0。

TF-IDF算法:就是將TF值 乘以 IDF值得到一個最終的值,來表述詞語對於文檔的重要程度。最終的TF-IDF的值越大,說明這個詞語對於文章越重要。



發佈了102 篇原創文章 · 獲贊 16 · 訪問量 15萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章