《Searching for Effective Neural Extractive Summarization: What Works and What’s Next》

文章介绍

     这周读的是《Searching for Effective Neural Extractive Summarization: What Works and What’s Next》,发表于2019ACL,并且做了oral talk。作者是复旦大学计算机学院的研究人员。文章主要探究的是不同的网络结构、迁移知识、学习策略会怎样有益于神经抽取式摘要系统。

       当前的研究,虽然使用神经网络效果较好,但是无法理解为什么效果较好以及模型的缺点。文章主要探究的问题是:

  1. 不同的网络结构如何影响摘要系统的性能

  2. 网络中的那个部分对于特定数据集影响较大

  3. 现在的模型是否收到过度设计的影响
  4. 预训练好的模型对摘要任务更友好?

  5. 是否可以通过额外的知识或者学习策略将最优结果更近一步

作者的研究思路如下图所示:主要从学习策略(包括监督学习和强化学习两方面)、网络结构(基于encoder-decoder架构分别使用pointer和LSTM实现)、以及外部知识(外部知识和内部知识)等方面进行试验

作者最终的结论是:

  1. 从网络结构上来说:自回归模型优于非自回归模型,且基于LSTM实现的模型相对于transformer更加容易过拟合
  2. 在CNN和每日邮报上的实验证明了抽取实验更大依赖于学习句子的位置信息
  3. 无监督学习的知识(词向量)相对于监督学习的知识(预训练的模型)更有用。
  4. 最后作者找到了一种非监督迁移知识来使模型结果更优的方法

文章内容

现有的模型结构可以归结为三个主要模块:句子编码器(基于CNN实现)、文件编码器(分别使用LSTM和transformer实现)以及解码器(基于自回归pointer network和非自回归的seqlab)。

       额外知识使用了非监督知识和监督知识,非监督知识包括上下文无关的词向量和上下文相关的词向量;监督知识包括训练好的模型。

       学习策略包括监督学和强化学习;主要得测试指标包括ROUGE-1、2、F1分数,以及交叉域验证、重复分数、位置偏移、句子长度和打乱句子。

使用的数据集如下:


结果分析

上图展示了,不同架构的encoder-decoder模型在不同数据集上的评价
Lead代表提取文章前k个句子作为摘要得到的分数,代表下界
oracle代表使用贪心算法得到的真实值,所有模型都是用了词向量嵌入,可以看出在八个数据集上自回归模型的结果都要优于非自回归模型;且基于transformer的模型远优于基于LSTM的模型。

上图a展示了基于pointer-wise的结构有更高的重复分数,这说明获取到了词语一级的信息从之前的句子中;上图b证明了seqlab模型对位置偏移更加敏感;图c说明了pointer网络句子长度变化程度高于seqlab网络。并且最终达到更好的效果‘

关于打乱句子排序的实验结果如上图所示,对应的实验精度都下降了,且LSTM模型下降的程度高于Transformer模型,间接说明了句子的位置信息对于抽取任务有显著的影响。

作者还进行了另外的实验,transformer使得研究人员可以将位置信息和文本信息分离进行实验,最终结果如上图,表明单纯使用位置信息,模型的R-1分数仍然达到了40.39,说明了位置信息的重要性

通过使用不同的非监督预训练方法,发现使用上下文无关的词向量表示并没有产生较大的提升,但是使用了BERT之后模型提升了,并且基于CNN-LSTM-Pointer的模型取得了所有最好的效果,R-1分数为42.39;作者同样发现使用监督学习的外部知识,模型取得的结果反而下降了。

       最后使用不同的学习策略:监督学习和强化学习进行实验的结果如下图:加入强化学习策略,模型性能进一步提升

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章