TextRank文檔摘要

TextRank文檔摘要

思想:借用pagerank的思路,把詞和句看成”頂點”,把他們的共現看成”邊”,可以認爲,存在共現關係,即可視爲一種”推薦”,通過迭代,使得到更多推薦的節點取得更高的分值,用以提取關鍵詞、關鍵句子。

pagerank算法

S(Vi)=(1d)+djIn(Vj)1Out(Vj)S(Vj)

某網頁Vi的得分,由兩個部分構成,其中1-d是爲防止出現零值,d右邊的部分,是引用該網頁的各網頁Vj的投票之和,投票值等於該網頁的打分S(Vj)除以它的出度,d一般取經驗值0.85

應用到關鍵詞提取和句子提取上,也是類似的,只是作者在pagerank的公式上作了修改,加入了得分權重,而在原始的pagerank中,所有的出鏈被當作是完全同等的,因此公式變爲

S(Vi)=(1d)+djIn(Vj)wjiVkOut(Vj)wjkS(Vj)

關鍵詞提取

過濾停用詞和不重要的詞之後,把有意義的詞看成頂點,窗口內的上下文共現的詞與之連成邊。實現表明,窗口大小爲2,即只考慮相鄰詞時,效果最好,實現中只抽取了unigram,如果被選取的關鍵詞在段落中相鄰,則將之拼在一起作爲phrase,並且,在只選取了名詞和形容詞時效果最好。

實驗的對比對象爲當時的最好結果,它用的是有監督方法,特徵上考慮了文檔內詞頻、數據集詞頻、首次出現的相對位置和postag序列

實驗還對比了有向圖的結果,即把詞的出現順序作爲出/入方向,但結果不如無向圖,且正向逆向的結果完全相等。

重要句子提取

抽取句子時,句子爲頂點,句子內存在共同的詞看成連接,把句子的相似度作爲權重

由於該方法是無監督方法,對語料和計算量要求不高,且效果比較好,目前是文本摘要的主流方法之一

文章鏈接
https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章