【NLP複習】關鍵詞提取方法(TF-IDF、TextRank)

一、TF-IDF

  • TF = 某詞在文檔中出現的次數 / 文檔的總詞數

  • IDF = log_e ( 語料庫中文檔總數 / 包含該詞的文檔數+1 )

  • 優點:簡單快速

  • 不足:沒考慮單詞的位置和語義信息;生僻詞的IDF值會過高;重要人名地名信息抽的效果不好;依賴於分詞結果

二、TextRank

  • d爲阻尼係數一般是0.85;兩個詞彙節點在長度爲K的窗口中共現就把他們給連起來。
  • 優點:考慮了單詞之間的相互關係
  • 不足:沒有考慮單詞的語義信息,缺少對上下文的整體考慮,詞語間連接的權重都賦予相同的默認值,不能區分連接關係的強弱。

【參考資料】

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章