一、TF-IDF
-
TF = 某詞在文檔中出現的次數 / 文檔的總詞數
-
IDF = log_e ( 語料庫中文檔總數 / 包含該詞的文檔數+1 )
-
優點:簡單快速
-
不足:沒考慮單詞的位置和語義信息;生僻詞的IDF值會過高;重要人名地名信息抽的效果不好;依賴於分詞結果
二、TextRank
- d爲阻尼係數一般是0.85;兩個詞彙節點在長度爲K的窗口中共現就把他們給連起來。
- 優點:考慮了單詞之間的相互關係
- 不足:沒有考慮單詞的語義信息,缺少對上下文的整體考慮,詞語間連接的權重都賦予相同的默認值,不能區分連接關係的強弱。
【參考資料】