TextRank文档摘要

思想：借用pagerank的思路，把词和句看成”顶点”，把他们的共现看成”边”，可以认为，存在共现关系，即可视为一种”推荐”，通过迭代，使得到更多推荐的节点取得更高的分值，用以提取关键词、关键句子。

pagerank算法

S (V_{i}) = (1 - d) + d \sum_{j \in I n (V_{j})} \frac{1}{O u t (V_{j})} S (V_{j})

某网页Vi的得分，由两个部分构成，其中1-d是为防止出现零值，d右边的部分，是引用该网页的各网页Vj的投票之和，投票值等于该网页的打分S(Vj)除以它的出度，d一般取经验值0.85

应用到关键词提取和句子提取上，也是类似的，只是作者在pagerank的公式上作了修改，加入了得分权重，而在原始的pagerank中，所有的出链被当作是完全同等的，因此公式变为

S (V_{i}) = (1 - d) + d \sum_{j \in I n (V_{j})} \frac{w_{j i}}{\sum_{V_{k} \in O u t (V_{j})} w_{j k}} S (V_{j})

过滤停用词和不重要的词之后，把有意义的词看成顶点，窗口内的上下文共现的词与之连成边。实现表明，窗口大小为2,即只考虑相邻词时，效果最好，实现中只抽取了unigram，如果被选取的关键词在段落中相邻，则将之拼在一起作为phrase，并且，在只选取了名词和形容词时效果最好。

实验的对比对象为当时的最好结果，它用的是有监督方法，特征上考虑了文档内词频、数据集词频、首次出现的相对位置和postag序列

实验还对比了有向图的结果，即把词的出现顺序作为出/入方向，但结果不如无向图，且正向逆向的结果完全相等。

抽取句子时，句子为顶点，句子内存在共同的词看成连接，把句子的相似度作为权重

由于该方法是无监督方法，对语料和计算量要求不高，且效果比较好，目前是文本摘要的主流方法之一

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.