TF-IDF 提取文本關鍵詞

原創

2020-02-20 17:35

TF-IDF是一種統計方法，用於評估某個詞語對於一個文本集或者一個語料庫中的一個文件的重要程度，字詞的重要性隨着其在文本的出現次數成比例增加，但是又會隨着其在語料庫中的頻率反比率下降，多爲搜索引擎應用，作爲文件和用戶搜索的相關程度的度量和評級。

算法由二部分定義：

TF：詞頻。一個字詞在一個文本中出現的頻率。

TF = 某詞在文章出現的次數/文章中總詞數

但是在文章中出現最多的詞語很可能是：“的”，“地”，“是”等詞語，但是這樣的詞語對於文章的關鍵性沒有什麼具體的幫助，這樣的詞語稱之爲停用詞。在文章中需要將停用詞進行過濾，纔可以進行評估。

經過上述分析，可以簡單的知道文本提取關鍵詞是怎麼回事，但是對於停用詞進行過濾之後，所剩下的詞語的詞頻很可能是相同的：例如“中國”、“足球”、“出現”在經過過濾之後的出現次數是一樣的，但是由生活交流可以瞭解到 ”出現“相對於"中國"、“足球”不是那麼的常見，所以可以分析出，“出現”這個詞語對於這篇文章的重要性較大，所以需要通過一個衡量權值進行調整，引入IDF。

IDF：逆向文檔頻率，對於詞頻賦予權重。對於比較常見的詞語賦予較小的權重，而相對應不常見的詞語賦予較大的權重，在進行IDF的計算的時候需要一個語料庫。

IDF = log(語料庫文檔總數/（包含該詞文檔總數）+1)、包含該詞文檔總數可以爲0。

TF-IDF算法：就是將TF值乘以 IDF值得到一個最終的值，來表述詞語對於文檔的重要程度。最終的TF-IDF的值越大，說明這個詞語對於文章越重要。

XD122

發佈了102 篇原創文章 · 獲贊 16 · 訪問量 15萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

TF-IDF 提取文本關鍵詞

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

Navicat安裝與激活教程

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

java JDBC 鏈接hive 操作實例

TF-IDF 提取文本關鍵詞

hive與mysql安裝以及使用

淺談PageRank算法

Hadoop 面試題（一）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結