TextRank文檔摘要

思想：借用pagerank的思路，把詞和句看成”頂點”，把他們的共現看成”邊”，可以認爲，存在共現關係，即可視爲一種”推薦”，通過迭代，使得到更多推薦的節點取得更高的分值，用以提取關鍵詞、關鍵句子。

pagerank算法

S (V_{i}) = (1 - d) + d \sum_{j \in I n (V_{j})} \frac{1}{O u t (V_{j})} S (V_{j})

某網頁Vi的得分，由兩個部分構成，其中1-d是爲防止出現零值，d右邊的部分，是引用該網頁的各網頁Vj的投票之和，投票值等於該網頁的打分S(Vj)除以它的出度，d一般取經驗值0.85

應用到關鍵詞提取和句子提取上，也是類似的，只是作者在pagerank的公式上作了修改，加入了得分權重，而在原始的pagerank中，所有的出鏈被當作是完全同等的，因此公式變爲

S (V_{i}) = (1 - d) + d \sum_{j \in I n (V_{j})} \frac{w_{j i}}{\sum_{V_{k} \in O u t (V_{j})} w_{j k}} S (V_{j})

過濾停用詞和不重要的詞之後，把有意義的詞看成頂點，窗口內的上下文共現的詞與之連成邊。實現表明，窗口大小爲2,即只考慮相鄰詞時，效果最好，實現中只抽取了unigram，如果被選取的關鍵詞在段落中相鄰，則將之拼在一起作爲phrase，並且，在只選取了名詞和形容詞時效果最好。

實驗的對比對象爲當時的最好結果，它用的是有監督方法，特徵上考慮了文檔內詞頻、數據集詞頻、首次出現的相對位置和postag序列

實驗還對比了有向圖的結果，即把詞的出現順序作爲出/入方向，但結果不如無向圖，且正向逆向的結果完全相等。

抽取句子時，句子爲頂點，句子內存在共同的詞看成連接，把句子的相似度作爲權重

由於該方法是無監督方法，對語料和計算量要求不高，且效果比較好，目前是文本摘要的主流方法之一

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.