TextRank: Bringing Order into Texts論文筆記

原來在搜PageRank論文時找到這篇04年發表、引用次數3066次的論文。

原文鏈接: https://www.aclweb.org/anthology/W04-3252.pdf

閱讀之後,發現並不是做網頁排序或者爬蟲調度相關的。而是利用PageRank/Hits等隨機遊走的方法對文本中的單元計算出類似PageRank的值,用來做無監督的關鍵詞抽取、關鍵句子抽取,取得了很好的效果。

具體在關鍵詞抽取上,先對詞過濾,只選取名詞和形容詞,然後以窗口爲N的co-occurrence關係構建圖,發現N=2、無向圖時效果最好。

Sentence Extraction的任務裏,這些句子的邊是句子之間的相似度,當然比較相似之前,先做過濾,只保留open class words。

在圖裏很好地實現了”推薦"的概念,而且實現的效果非常好,不需要訓練、不需要語言學知識、不需要語料。

倒感覺像只是知識圖譜或圖神經網絡之類的論文。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章