《Searching for Effective Neural Extractive Summarization: What Works and What’s Next》

文章介紹

     這周讀的是《Searching for Effective Neural Extractive Summarization: What Works and What’s Next》,發表於2019ACL,並且做了oral talk。作者是復旦大學計算機學院的研究人員。文章主要探究的是不同的網絡結構、遷移知識、學習策略會怎樣有益於神經抽取式摘要系統。

       當前的研究,雖然使用神經網絡效果較好,但是無法理解爲什麼效果較好以及模型的缺點。文章主要探究的問題是:

  1. 不同的網絡結構如何影響摘要系統的性能

  2. 網絡中的那個部分對於特定數據集影響較大

  3. 現在的模型是否收到過度設計的影響
  4. 預訓練好的模型對摘要任務更友好?

  5. 是否可以通過額外的知識或者學習策略將最優結果更近一步

作者的研究思路如下圖所示:主要從學習策略(包括監督學習和強化學習兩方面)、網絡結構(基於encoder-decoder架構分別使用pointer和LSTM實現)、以及外部知識(外部知識和內部知識)等方面進行試驗

作者最終的結論是:

  1. 從網絡結構上來說:自迴歸模型優於非自迴歸模型,且基於LSTM實現的模型相對於transformer更加容易過擬合
  2. 在CNN和每日郵報上的實驗證明了抽取實驗更大依賴於學習句子的位置信息
  3. 無監督學習的知識(詞向量)相對於監督學習的知識(預訓練的模型)更有用。
  4. 最後作者找到了一種非監督遷移知識來使模型結果更優的方法

文章內容

現有的模型結構可以歸結爲三個主要模塊:句子編碼器(基於CNN實現)、文件編碼器(分別使用LSTM和transformer實現)以及解碼器(基於自迴歸pointer network和非自迴歸的seqlab)。

       額外知識使用了非監督知識和監督知識,非監督知識包括上下文無關的詞向量和上下文相關的詞向量;監督知識包括訓練好的模型。

       學習策略包括監督學和強化學習;主要得測試指標包括ROUGE-1、2、F1分數,以及交叉域驗證、重複分數、位置偏移、句子長度和打亂句子。

使用的數據集如下:


結果分析

上圖展示了,不同架構的encoder-decoder模型在不同數據集上的評價
Lead代表提取文章前k個句子作爲摘要得到的分數,代表下界
oracle代表使用貪心算法得到的真實值,所有模型都是用了詞向量嵌入,可以看出在八個數據集上自迴歸模型的結果都要優於非自迴歸模型;且基於transformer的模型遠優於基於LSTM的模型。

上圖a展示了基於pointer-wise的結構有更高的重複分數,這說明獲取到了詞語一級的信息從之前的句子中;上圖b證明了seqlab模型對位置偏移更加敏感;圖c說明了pointer網絡句子長度變化程度高於seqlab網絡。並且最終達到更好的效果‘

關於打亂句子排序的實驗結果如上圖所示,對應的實驗精度都下降了,且LSTM模型下降的程度高於Transformer模型,間接說明了句子的位置信息對於抽取任務有顯著的影響。

作者還進行了另外的實驗,transformer使得研究人員可以將位置信息和文本信息分離進行實驗,最終結果如上圖,表明單純使用位置信息,模型的R-1分數仍然達到了40.39,說明了位置信息的重要性

通過使用不同的非監督預訓練方法,發現使用上下文無關的詞向量表示並沒有產生較大的提升,但是使用了BERT之後模型提升了,並且基於CNN-LSTM-Pointer的模型取得了所有最好的效果,R-1分數爲42.39;作者同樣發現使用監督學習的外部知識,模型取得的結果反而下降了。

       最後使用不同的學習策略:監督學習和強化學習進行實驗的結果如下圖:加入強化學習策略,模型性能進一步提升

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章