文本自動摘要
兩大分類
- 抽取式摘要
- 生成式摘要
1、抽取式摘要
分爲無監督和有監督。
-
無監督方法:
(1)基於統計特徵的tfidf
(2)文本聚類
(3)基於圖特徵的TextRank、LexRank
(4)MMR,全稱爲Maximal Marginal Relevance,它的核心思想同時考慮了內容相關性和多樣性
(5)submodular(次模)函數 -
有監督方法:
(1)SummaRuNNer:基於RNN,詞級別做RNN編碼,句子級別做RNN編碼,最後判斷每個句子是否屬於摘要句子。
論文地址:SummaRuNNer: A Recurrent Neural Network based Sequence Model for Extractive Summarization of Documents
2、生成式摘要
大部分都是基於的seq2seq框架
-
常見問題:
(1)OOV問題
(2)摘要的可讀性
(3)摘要的重複性
(4)長文本摘要生成難度大
(5)模型的訓練目標與最終的評測指標不太一致 -
模型:
-
Pointer-network
- 主要針對問題1,2,3
- 論文地址:Get To The Point: Summarization with Pointer-Generator Networks
-
Neural Headline Generation with Minimum Risk Training
-
Attention Model
-
Attention-Based Summarization(ABS)
-
ABS+
-
Recurrent Attentive Summarizer
-
big-words-lvt2k-1sent
-
words-lvt2k-2sent-hieratt
-
feats-lvt2k-2sent-ptr
-
COPYNET
-
基於預訓練語言模型BERT/XLNET/GPT等的方法
如:基於預訓練自然語言生成的文本摘要方法
模型介紹參考:https://www.jianshu.com/p/2baeaf249a9a
-
中文語料庫
Large Scale Chinese Short Text Summarization Dataset(LCSTS)
這是一箇中文短文本摘要數據集,數據採集自新浪微博。
測評方法
-
Edmundson
Edmundson評價方法比較簡單,是通過比較自動文摘與目標文摘的句子重合率的高低來對系統摘要進行評價。 -
ROUGE
ROUGE是由ISI的Lin和Hovy提出的一種自動摘要評價方法,是主流測評方法。ROUGE-N系列,其實就是以n-gram爲基本單元,計算兩個句子之間的n-gram重合率。每個ROUGE系列的計算結果又可以細分爲precision,recall和f-beta分數。
ROUGE-L是針對是最長公共子序列的重合率計算。
ROGUE-W與ROUGE-L類似,不同的是考慮了連續最長公共子序列應該擁有更大的權重。
ROUGE-S,基於的是skip-gram。