TF-IDF自動提取關鍵詞

原創

2020-06-16 03:32

TF-統計 IDF逆文檔頻率

算法思想：在一個文章中某個詞的詞頻越大越有可能是關鍵詞，如果一個詞越少見，權重越大。

用統計學語言表達，就是在詞頻的基礎上，要對每個詞分配一個"重要性"權重。最常見的詞（"的"、"是"、"在"）給予最小的權重，較常見的詞（"中國"）給予較小的權重，較少見的詞（"蜜蜂"、"養殖"）給予較大的權重。這個權重叫做"逆文檔頻率"（Inverse Document Frequency，縮寫爲IDF），它的大小與一個詞的常見程度成反比。

知道了"詞頻"（TF）和"逆文檔頻率"（IDF）以後，將這兩個值相乘，就得到了一個詞的TF-IDF值。

（1）詞頻統計

（2）計算逆文檔頻率

這時，需要一個語料庫（corpus），用來模擬語言的使用環境。

如果一個詞越常見，那麼分母就越大，逆文檔頻率就越小越接近0。分母之所以要加1，是爲了避免分母爲0（即所有文檔都不包含該詞）。log表示對得到的值取對數。

（3）計算TF-IDF

TF-IDF算法的優點是簡單快速，結果比較符合實際情況。缺點是，單純以"詞頻"衡量一個詞的重要性，不夠全面，有時重要的詞可能出現次數並不多。而且，這種算法無法體現詞的位置信息，出現位置靠前的詞與出現位置靠後的詞，都被視爲重要性相同，這是不正確的。（一種解決方法是，對全文的第一段和每一段的第一句話，給予較大的權重。）

摘自網上http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

TF-IDF自動提取關鍵詞

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

Java類型與變量問題

Java語法幾點注意

TF-IDF自動提取關鍵詞

bayes statistics

"餘弦相似性"（cosine similiarity）比較相似文章

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結