原來在搜PageRank論文時找到這篇04年發表、引用次數3066次的論文。
原文鏈接: https://www.aclweb.org/anthology/W04-3252.pdf
閱讀之後,發現並不是做網頁排序或者爬蟲調度相關的。而是利用PageRank/Hits等隨機遊走的方法對文本中的單元計算出類似PageRank的值,用來做無監督的關鍵詞抽取、關鍵句子抽取,取得了很好的效果。
具體在關鍵詞抽取上,先對詞過濾,只選取名詞和形容詞,然後以窗口爲N的co-occurrence關係構建圖,發現N=2、無向圖時效果最好。
Sentence Extraction的任務裏,這些句子的邊是句子之間的相似度,當然比較相似之前,先做過濾,只保留open class words。
在圖裏很好地實現了”推薦"的概念,而且實現的效果非常好,不需要訓練、不需要語言學知識、不需要語料。
倒感覺像只是知識圖譜或圖神經網絡之類的論文。