TextRank文檔摘要
思想:借用pagerank的思路,把詞和句看成”頂點”,把他們的共現看成”邊”,可以認爲,存在共現關係,即可視爲一種”推薦”,通過迭代,使得到更多推薦的節點取得更高的分值,用以提取關鍵詞、關鍵句子。
pagerank算法
某網頁Vi的得分,由兩個部分構成,其中1-d是爲防止出現零值,d右邊的部分,是引用該網頁的各網頁Vj的投票之和,投票值等於該網頁的打分S(Vj)除以它的出度,d一般取經驗值0.85
應用到關鍵詞提取和句子提取上,也是類似的,只是作者在pagerank的公式上作了修改,加入了得分權重,而在原始的pagerank中,所有的出鏈被當作是完全同等的,因此公式變爲
關鍵詞提取
過濾停用詞和不重要的詞之後,把有意義的詞看成頂點,窗口內的上下文共現的詞與之連成邊。實現表明,窗口大小爲2,即只考慮相鄰詞時,效果最好,實現中只抽取了unigram,如果被選取的關鍵詞在段落中相鄰,則將之拼在一起作爲phrase,並且,在只選取了名詞和形容詞時效果最好。
實驗的對比對象爲當時的最好結果,它用的是有監督方法,特徵上考慮了文檔內詞頻、數據集詞頻、首次出現的相對位置和postag序列
實驗還對比了有向圖的結果,即把詞的出現順序作爲出/入方向,但結果不如無向圖,且正向逆向的結果完全相等。
重要句子提取
抽取句子時,句子爲頂點,句子內存在共同的詞看成連接,把句子的相似度作爲權重
由於該方法是無監督方法,對語料和計算量要求不高,且效果比較好,目前是文本摘要的主流方法之一
文章鏈接
https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf