【論文閱讀:文章中心詞抽取】TextRank: Bringing Order into Texts - emnlp 2004

原文可以從這裏下載:http://pan.baidu.com/s/1bonMgVl


綜述:
textrank的經典開山文章。用處在於:1. 抽取文章關鍵詞;2. 抽取文摘

具體內容:

1 抽取文章關鍵詞的幾種思路:
(1)簡單統計方法:tf/idf
(2)有監督的學習方法:將關鍵詞抽取問題轉成分類問題,用分類模型,如:樸素貝葉斯,來解決
(3)無監督的學習方法
(3-1)graph-based方法,即本文方法
(3-2)LDA主題模型

2 textrank的基本方法
找出節點(要抽取什麼東西?)、找出節點之間的關聯(文本詞語之間的語法語義關係或者簡單的同現關係),從而構成圖(有向圖或者無向圖)。
圖的pagerank或者hits算法是固定的,套用就行了。

3 關鍵詞抽取
節點:可以是word、可以是ngram、可以是任何語言單位。本文作者在實驗中用的是word
邊:即word之間的關係,可以通過句法分析等找到word之間的語法、語義聯繫。本文作者用的就是“同現”關係,即在長度爲N的窗口中同現的詞語。
數據處理:需要去掉停用詞,甚至只採用某些詞性的詞。
模型變形:可以是有向圖、也可以是無向圖,邊的權重也可以根據實際需要設定。

個人評述:總感覺作者的方法會比較偏向於高頻詞。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章