HeterSumGraph,異質圖神經網絡的抽取式摘要模型


alt

Heterogeneous Graph Neural Networks for Extractive Document Summarization (ACL 2020)
鏈接:http://arxiv.org/abs/2004.12393
代碼:https://github.com/brxx122/HeterSUMGraph
作者:Danqing Wang, Pengfei Liu, Yining Zheng, Xipeng Qiu, Xuanjing Huang
轉載來源:https://zhuanlan.zhihu.com/p/138600416

抽取式摘要的目標是從原文章中選出最爲重要的若干個句子,並且將它們重組成摘要。因而,如何構建句子之間的關係,並得到更好的句子表示,就成爲抽取式摘要的核心問題。而本文就試圖通過引入詞結點來擴充句子間的關係,以異構圖的方式來建模抽取式摘要,模型被命名爲 HeterSumGraph (Heterogeneous Summarization Graph)。

建模句間關係

在摘要任務上,建模句間關係的方法可以分成兩大類:

  1. 以 RNN(LSTM) 爲代表的序列模型

  2. 以 Graph 爲核心結構的模型

序列模型較難捕捉到句子級別的長距離依賴,並且它過於依賴句子上下文的局部信息。相對而言,基於全局信息的圖結構更加適合摘要任務。早在 2004 年,圖結構就被用於抽取式摘要任務上:LexRank[1] 和 TextRank[2] 以句子爲結點,按照句子之間特徵的相似度建邊,以無監督迭代的方式對結點進行重要性排序,選出最重要的若干個結點作爲摘要。然而,對於以相似度建邊的圖來說,選擇合適的閾值並不容易。近來,一些工作試圖通過人工定義的特徵來判斷句子結點之間是否應該連邊(如 ADG[3]),或者通過修辭手法或者共同指代等關係來構建圖(如 RST[4])。還有的試圖直接使用全連接圖 Transformer,讓模型自己學習邊權。但是這些圖都侷限於句子這一種結點,沒有引入更多的結點信息。

而這篇文章試圖通過引入詞結點來豐富圖結構,更好地建立句子之間的關係。詞結點的引入基於以下幾方面的考慮:

  1. 目前的抽取式摘要系統更多依賴於句子的位置信息,句子的內容信息並沒有得到很好的編碼 [5]。甚至在模型輸入時,刪除句子裏面的名詞、動詞、形容詞等等,都對最終結果的影響不大 [6]。引入詞結點,並且使它們和句子結點反覆迭代更新,能夠加強詞在句子表示中的作用。
  2. 通過共同出現的詞,句子之間的關係得到了擴充。早期依靠相似度建邊的圖結構,本質也是依賴於句子之間內容的重疊程度。引入詞結點後,模型不再需要手動確定相似度的閾值,詞和句子之間的包含關係是確定的,而擁有越多相同詞的句子間關係越緊密。同時,句子之間的關係不再是單一的連邊 / 不連邊,而是根據詞的不同有不同的關係。
  3. 因爲詞是最小的語義單元,因此它可以作爲中介結點鏈接任何比它大的語義單元。作爲句子的中介,它可以更好地建立句子間的關係;作爲文章的中介,它同樣可以建立多文檔關係。因此,模型可以很輕易地從單文檔摘要遷移到多文檔摘要任務上。

HeterSumGraph(HSG)

HeterSumGraph 的結構如上圖 1 所示,主要由三部分構成:

  • 圖初始化模塊
  • 異質圖層迭代更新
  • 句子選擇模塊

圖初始化模塊分別對詞結點、句子結點以及詞和句子的連邊進行初始化,其中句子結點分別使用了 CNN 和 LSTM 進行內容和位置信息的編碼,而連邊選用 TF-IDF 特徵作爲權重。

異質圖層的更新分成兩個方向:詞到句子和句子到詞。
詞結點和句子結點的迭代更新

詞到句子給了句子結點更好的內容表示,句子到詞的更新爲詞結點提供其出現次數的統計信息,從而使得多次出現的重要詞語得到更好的更新。進一步,這個信息將會通過詞到句子的再次迭代傳遞給句子,使得擁有更多重點詞語的句子得到更好的表示。這種通過結點度數而得到的頻數信息,是圖結構區別於基於上下文編碼的序列模型的重要特徵之一。

句子選擇模塊主要是對句子進行重要性排序,並且嘗試了一些樸素的去冗餘操作,如 Trigram blocking。

通過添加文章結點,可以從單文檔任務遷移到多文檔摘要上,如下圖所示:
多文檔摘要模型 HeterDocSumGraph 的圖結構

實驗與分析

HSG 分別在單文檔和多文檔的三個摘要數據集上進行了測試。單文檔摘要選擇了較爲常見的 CNN/DailyMail 和 NYT50 數據集,多文檔則選擇了 ACL2019 Fabbri 提出的 Multi-News[7]:
單文檔摘要集 CNN/DailyMail 和 NYT50 結果

多文檔摘要集 Multi-News 結果

那麼這種收益是什麼帶來的呢?除了簡單的消融實驗之外,文章還進行了進一步探究。作者認爲,如果引入詞結點以及詞語出現頻率(即詞結點度數)是有幫助的話,那麼對於詞結點平均度數越高的圖,收益越是明顯。換言之,如果文章中每個詞都只出現過一次,那麼得到圖結構其實和序列模型差別不大,只有在存在多次出現的詞語的文章中,詞結點才能夠獲得多個句子的更新。因此文章按照詞結點的平均度數對 CNN/DM 測試集進行了劃分,以折線表示 BiLSTM 和 HSG 模型的性能,以柱狀圖表示兩個模型的性能差值:
平均詞結點度數和多文檔輸入文章數的探究性實驗

可以看到在詞結點平均度數越高的區間上,兩個模型的性能差值越明顯。因此可以驗證,HSG 引入詞結點帶來的優勢主要在於多個句子對詞結點的更新。

此外,文章還對多文檔任務進行了探究。通過對輸入文檔個數對加 / 不加文章結點的圖模型性能探究,驗證了引入文章結點來構建文章之間的關係對多文檔摘要是非常重要的,並且隨着源文檔數目的增加,這個影響更加明顯。

引用文獻

[1] Erkan, G., & Radev, D. R. (2004). LexRank: Graph-based lexical centrality as salience in text summarization. Journal of Artificial Intelligence Research, 22, 457–479.

[2] Mihalcea, R., & Tarau, P. (2004). TextRank: Bringing Order into Texts, 45(4).

[3] Yasunaga, M., Zhang, R., Meelu, K., Pareek, A., Srinivasan, K., & Radev, D. (2017). Graph-based Neural Multi-Document Summarization. CoNLL.

[4] Xu, J., Gan, Z., Cheng, Y., & Liu, J. (2019). Discourse-Aware Neural Extractive Model for Text Summarization

[5] Zhong, M., Liu, P., Wang, D., Qiu, X., & Huang, X. (2019). Searching for Effective Neural Extractive Summarization: What Works and What’s Next, 1049–1058. ACL

[6] Kedzie, C., Mckeown, K., & Daum, H. (2018). Content Selection in Deep Learning Models of Summarization. In Empirical Methods in Natural Language Processing (EMNLP).

[7] Fabbri, A. R., Li, I., She, T., Li, S., & Radev, D. R. (2019). Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model. In ACL. Retrieved from http://arxiv.org/abs/1906.01749

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章