Paper | NAACL2019 抽取式摘要之 SUMO

論文題目:Single Document Summarization as Tree Induction

論文作者:Yang Liu, Ivan Titov and Mirella Lapata.

下載鏈接:https://www.aclweb.org/anthology/N19-1173.pdf

代碼:https://github. com/nlpyang/SUMO.

來源:NAACL 2019

分類:NLP / 文本摘要 / 抽取式摘要

 

太長不看版

本文提出了一種端到端的取式文本摘要模型(Structured Summarization Model, SUMO),將單文檔抽取式摘要看作一個樹歸納問題

將輸入文檔歸納爲一個多根樹,每個樹根是組成摘要的句子,樹根的子樹則是與樹根的摘要句內容相關或者解釋摘要句的句子。

通過不斷迭代細化逐漸構成樹🌲。

 

主要思想

本文將單文檔抽取式摘要問題定義爲樹歸納(tree induction)問題。

 

以前的方法依賴於語言驅動的文檔表示來生成摘要,我們的模型在預測輸出摘要時引入了一個多根依賴樹。樹中的每個根節點都是一個摘要句,其附屬的子樹是內容與摘要句相關或解釋摘要句的句子。

 

我們設計了一種新的迭代改進算法:通過反覆細化先前迭代預測的結構來逐漸生成樹。我們在兩個基準數據集上進行了實驗,證明了我們的summarizer可以與最先進的方法相媲美。

 

1.問題定義

傳統的抽取式摘要的方法常常是類似於序列標註順序的爲句子打分,缺點:

  1. 沒有考慮文檔的結構,而這部分的信息很重要。

  2. 缺乏可解釋性,雖然能夠識別摘要句,但卻不能使它們的預測合理化。

 

文檔及其對應樹的示例如圖1所示;節點對應文檔句子,藍色節點表示應該在摘要中的句子,白色節點與其父摘要語句相關或包含。

 

 

本文提出了一個新的框架,使用結構化注意力(Kim et al., 2017)同時作爲抽取式摘要的目標和注意力權重。模型是端到端訓練的,它在預測輸出摘要時引入文檔級依賴樹,並通過幫助解釋文檔內容如何有助於模型的決策,在摘要過程中帶來更多的可解釋性。

 

貢獻:

  1. 提出了一種新的概念:將抽取式摘要看成樹歸納問題。

  2. 利用結構化注意(structured attention),基於迭代結構改進方法,來學習文檔表示;

  3. 大規模的評估研究表明,我們的方法在與最先進的方法可比的同時,能夠使模型預測合理化。

 

2.模型結構

2.1. baseline

 

本文baseline是傳統的序列二分類(Zhang et al., 2018; Dong et al., 2018; Nallapati et al.,2017; Cheng and Lapata, 2016)使用交叉熵lossencodersentence-level Transformer (TS) document-level Transformer (TD)構成,都是相同的結構,使用Transformer architecture(Vaswani et al., 2017)。

 

其中Transformer包含N個相同的層,每個層有兩個子層:

 

 

其中FFN是兩層前饋神經網絡+ReLU。

句子表示的計算方式:word過TS然後進行weighted-pooling。如下。

接下來融合文檔信息,最後使用sigmoid進行二分類。

 

2.2. Structured Summarization Model

 

baselineTransformer模型中,使用基於softmaxmulti-head attention對句子間的關係進行建模,但這隻捕獲了淺層結構信息。我們的摘要模型SUMO (Structured Summarization Model),它將句子分爲有摘要價值的和沒有摘要價值的,同時將源文檔的結構歸納爲一個多根樹。

 

該模型與baselineTransformer model具有相同的sentence-level encoder(TS)(圖2的底部框),但在doc-level encoder上兩個重要方面有所不同:

  1. 使用結構化注意力(structured attention)來建模底層樹的根(總結句)(見圖2藍框);

  2. 通過迭代改進,從過去的猜測中逐步推斷出更復雜的結構(參見圖2上的區塊)。

 

1)Structured Attention 

 

得到文檔句子編碼si後,SUMO首先計算句子 senti 的非歸一化的根得分(unnormalized root score) ri 作爲句子 senti 在文檔樹中被選擇爲根的程度。(9)

 

接着計算了句子對〈senti , sentj 〉的非歸一化得分ẽij,作爲樹中句子 senti 可能成爲 sentj 的父親的程度。(如圖2藍區塊所示)(10)

 

爲了引入結構偏差,SUMO將這些分數規範化爲在文檔依賴樹中形成邊的邊緣概率[邊緣概率:一件事情發生的概率,不再考慮其他事件]。

 

 

我們用樹矩陣定理Tree-Matrix-Theorem (TMT; Koo et al. 2007; Tutte 1984) 計算根邊緣概率 ri 和邊邊緣概率 eij (Liu和Lapata 2017)。TMT算法如下圖所示:

Koo et al. (2007) and Liu and Lapata (2017) for more details

 

與Liu和Lapata(2017)計算單根樹的邊緣概率不同的是,我們的樹有多個根。

 

2)迭代結構改進

 

SUMO本質上將摘要簡化爲一個 rooted-tree parsing問題,然而一次就能精準的預測一棵樹是有問題的,如下:

  • 首先,在預測樹時,模型只訪問根(摘要句)的標籤,而子樹的連接是潛在存在的且沒有明確的訓練信號。正如之前的工作(Liu和Lapata, 2017)所表明的,TMT的單一應用會導致淺層的樹結構。

  • 其次,計算根分數 r̃ 和邊分數 ẽij 將只能基於一階特性,然而與兄弟姐妹和孫子” 有關的高階信息在語篇分析中被證明是有用的。

 

因此我們使用一個迭代推斷潛在樹的推理算法來解決這些問題。與多層神經網絡結構(如TransformerRNN)不同,在每一層都根據前一層的輸出更新單詞表示;我們只在每次迭代中細化樹結構,單詞表示不會跨多個層傳遞。

 

在早期的迭代中,模型學習淺層和簡單的樹,信息主要在鄰近節點之間傳播;隨着結構變得更精細,信息在全局範圍內傳播得更多,從而允許模型學習更高階的特性。算法2提供了我們細化過程的細節(注意456行是前文提到的structure-attention):

 

該算法中的 ek 表示邊(子樹)的信息,用在迭代中信息的保存,可以更好的計算根節點;rk 表示根(摘要句)。

 

我們將模型的損失函數定義爲所有迭代的損失之和:

SUMO使用頂層的根概率作爲總結句的分數。

 

The k-Hop-Propagation函數類似於圖卷積網絡GCNs中的計算(Kipf Welling, 2017;Marcheggiani Titov, 2017)。GCNs最近已經被應用於潛在樹(Corro和Titov, 2019),但是沒有與迭代細化相結合。

 

3.實驗

3.1 Summarization Datasets

 

兩個基準數據集:

  • the CNN/DailyMail news highlights dataset (Hermann et al., 2015);

  • 包含新聞文章和相關的摘要。使用Hermann(2015)的標準分割進行訓練、驗證和測試(90,266/1,220/1,093 CNN和196,961/12,148/10,397 DailyMail),非匿名實體。

  • the New York Times Annotated Corpus (NYT; Sandhaus 2008). 

    包含110,540篇文章和摘要。根據發佈日期分爲100,834個訓練和9,706個測試樣本Durrett(2016)。還遵循了他們的過濾過程,刪除了短於50個單詞的摘要的文檔。

 

3.2 Implementation Details

 

  • The vocabulary size = 30K. 

  • 300D word embeddings which were initialized randomly from N (0, 0.01). 

  • The sentence-level Transformer has 6 layers and the hidden size of FFN = 512. 

  • The number of heads in MHAtt = 4. 

  • Adam was used for training (β1 = 0.9, β2 = 0.999). 

  • learning rate schedule from Vaswani. (2017) with warming-up on the first 8,000 steps. 

  • SUMO and related Transformer models produced 3-sentence summaries for each doc at test time (for both CNN/DailyMail and NYT datasets).

 

3.3. Automatic Evaluation

 

我們使用ROUGE F1 (Lin, 2004)對摘要質量進行了評估。ROUGE-1和ROUGE-2 評估信息性,最長公共子序列 ROUGE-L 評估流利性。

我們實驗了SUMO的兩種變體,一種是一層structure attention,另一種是三層。表1展示實驗結果。

 

我們觀察擁有三層結構化attention的SUMO表現最好,這證實了我們的假設,即文檔結構有利於摘要的抽取。表1中的結果還顯示SUMO和所有基於Transformer模型的文檔注意(doc-att: document-level self-attention)的性能都優於LEAD-3。SUMO(3層)比最先進的方法更有競爭力。SUMO優於Marcu(1999),儘管後者使用了語言上的文檔表示。

 

 

其中:

  • REFRESH (Narayan et al.)是一個通過全局優化ROUGE和增強學習的抽取式摘要系統。

  • Marcu(1999)是另一個基於RST解析的抽取式摘要器。它利用語篇結構和核概念對句子進行重要性評分,並選取最重要的句子作爲總結。我們對Marcu(1999)的重新實現使用了Zhao和Huang(2017)的解析器來獲得RST樹。

  • Durrett(2016)開發了一個集成了語法一致性和一致性的壓縮模型的摘要系統。

  • See(2017)提出了一種基於編解碼器架構的抽象摘要系統。

  • Celikyilmaz(2018)是生成式摘要的state-of-the-art,使用了多個agents來表示文檔以及使用agents進行解碼的分層注意機制。

 

3.4. Human Evaluation

 

按照問答(QA)範式來對摘要從文檔中保留關鍵信息的程度進行評分,我們基於gold summary創建了一組問題,假設它突出了最重要的文檔內容。然後,我們檢查參與者是否能夠只通過閱讀系統輸出的摘要來回答這些問題。系統輸出摘要能夠回答的問題越多,就越能更好地概括整個文檔。我們從CNN/DailyMail和NYT的數據集中隨機選擇了20個文檔,分別爲每個gold summary寫了多個問答對。我們一共出了71道題,每道題從2道到6道不等。我們要求參與者閱讀摘要並儘可能回答所有相關問題,而不需要閱讀原始文檔或gold summary。

 

我們採用了與Clarke和Lapata(2010)相同的評分機制,即,一個正確的答案被標記爲1分,部分正確的答案被標記爲0.5分,否則爲0分。答案來自亞馬遜的土耳其機器人平臺。參與者評估由LEAD-3基線、我們的3層相撲模型和多個最先進的系統生成的摘要。每個總結我們得到5個回答。

表2 (QA列)給出了基於QA的評估結果。根據SUMO的summary,參賽者在CNN/DailyMail上的正確率爲65.3%,在NYT上的正確率爲57.2%。

(RANK列)評估了總結的總體質量,要求參與者根據以下標準對summary進行排序:信息量、流利性和簡潔性。這項研究是在Amazon Mechanical Turk platform 上進行的,使用的是Best-Worst量表(Louviere et al., 2015),這是一種比成對比較更省力的方法,已經被證明比評分量表產生更可靠的結果(Kiritchenko and Mohammad, 2017)。參與者被出示了一份來自7個系統中3個系統的文件和摘要,並被要求根據上面提到的標準來決定哪一個摘要更好,哪一個更差。每個系統的評分是用它被選爲最佳的次數減去它被選爲最差的次數的百分比來計算的。評分範圍從-1(最差)到1(最好)。如表2 (Rank列)所示,絕大多數參與者更喜歡SUMO和REFRESH (Narayan et al., 2018)。

 

4.結論

在這篇論文中,我們提供了一個新的視角,將抽取式摘要概念化爲一個樹歸納問題。

 

我們提出了SUMO,該模型將一個文檔變爲多根依賴樹,其中根是有摘要價值的句子,而附加在根上的子樹是闡述或解釋摘要內容的句子。SUMO使用在以前的迭代中學習到的信息,通過迭代細化過程構建潛在結構,從而生成複雜的樹。在兩個數據集上進行的實驗表明,SUMO與最先進的方法相比具有競爭力,並能歸納出有意義的樹結構。

 

在未來,我們希望將SUMO可以用在生成式摘要上(即學習文檔和句子的潛在結構)並可以在弱監督的環境下進行實驗,雖然沒有摘要,但可以從文章的標題或主題推斷出標籤。

 

譯者:西柚媛

編輯:西柚

 

本文來自程序媛驛站,未經授權不得轉載.

如有需要請公衆號後臺聯繫

(歡迎轉發到朋友圈~)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章