文本自动摘要
两大分类
- 抽取式摘要
- 生成式摘要
1、抽取式摘要
分为无监督和有监督。
-
无监督方法:
(1)基于统计特征的tfidf
(2)文本聚类
(3)基于图特征的TextRank、LexRank
(4)MMR,全称为Maximal Marginal Relevance,它的核心思想同时考虑了内容相关性和多样性
(5)submodular(次模)函数 -
有监督方法:
(1)SummaRuNNer:基于RNN,词级别做RNN编码,句子级别做RNN编码,最后判断每个句子是否属于摘要句子。
论文地址:SummaRuNNer: A Recurrent Neural Network based Sequence Model for Extractive Summarization of Documents
2、生成式摘要
大部分都是基于的seq2seq框架
-
常见问题:
(1)OOV问题
(2)摘要的可读性
(3)摘要的重复性
(4)长文本摘要生成难度大
(5)模型的训练目标与最终的评测指标不太一致 -
模型:
-
Pointer-network
- 主要针对问题1,2,3
- 论文地址:Get To The Point: Summarization with Pointer-Generator Networks
-
Neural Headline Generation with Minimum Risk Training
-
Attention Model
-
Attention-Based Summarization(ABS)
-
ABS+
-
Recurrent Attentive Summarizer
-
big-words-lvt2k-1sent
-
words-lvt2k-2sent-hieratt
-
feats-lvt2k-2sent-ptr
-
COPYNET
-
基于预训练语言模型BERT/XLNET/GPT等的方法
如:基于预训练自然语言生成的文本摘要方法
模型介绍参考:https://www.jianshu.com/p/2baeaf249a9a
-
中文语料库
Large Scale Chinese Short Text Summarization Dataset(LCSTS)
这是一个中文短文本摘要数据集,数据采集自新浪微博。
测评方法
-
Edmundson
Edmundson评价方法比较简单,是通过比较自动文摘与目标文摘的句子重合率的高低来对系统摘要进行评价。 -
ROUGE
ROUGE是由ISI的Lin和Hovy提出的一种自动摘要评价方法,是主流测评方法。ROUGE-N系列,其实就是以n-gram为基本单元,计算两个句子之间的n-gram重合率。每个ROUGE系列的计算结果又可以细分为precision,recall和f-beta分数。
ROUGE-L是针对是最长公共子序列的重合率计算。
ROGUE-W与ROUGE-L类似,不同的是考虑了连续最长公共子序列应该拥有更大的权重。
ROUGE-S,基于的是skip-gram。