文本自動摘要

文本自動摘要(自動文摘)Text Summarization 指自動地從原始文檔中提取摘要,摘要是全面準確地反映該文檔中心內容的簡單連貫的短文。

應用

學術文獻、 會議記錄、 電影劇本、學生反饋、軟件代碼、 直播文字

評價指標

人工評價

時間成本太高,效率太低

自動評價

給定參考摘要作爲標準答案,通過制定一些規則來給生產的摘要打分。

ROUGE 系統(Recall-Oriented Understudy for Gisting Evaluation):將待審的摘要和參考摘要的 n 元組共現統計量作爲評價依據,通過一系列標準進行打分。

包括 ROUGE-N (ROUGE-1, ROUGE-2, ROUGE-3, ROUGE-4), ROUGE-L, ROUGE-W,ROUGE-S, ROUGE-SU

方法

抽取式摘要 Extraction-based summarization

從原文中找到一些關鍵的句子,組合成一篇摘要。

  1. 基於特徵

    統計句子包含的關鍵詞數量、關鍵詞位置、句子長度、句子位置等。

    方法:TextTeaser

    論文:

    • (IBM Journal 1958) The Automatic Creation of Literature Abstracts

    • (Journal of the ACM 1969) New Methods in Automatic Extracting

    • (SIGIR 2001) Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis

  2. 基於圖排序

    將文檔的每句話作爲節點,句子之間的相似度作爲邊權,構建圖模型,計算每個句子的得分。

    方法:LexRank, TextRank

    論文:

    • (JAIR 2004) LexRank: Graph-based Lexical Centrality as Salience in Text Summarization

    • (EMNLP 2004) TextRank: Bringing Order into Texts

  3. 神經網絡

    方法:Attention Model, RNN, CNN

    論文:

    • (ACL 2016) Neural Summarization by Extracting Sentences and Words

綜合式摘要 Abstractive Summarization

理解原文並用簡潔文本表達。

方法:

  • Encoder-Decoder 框架

    Encoder 是將輸入序列表示成一個帶有語義的向量,通常使用 LSTM、GRU 等 RNN 模型,複雜的也有 BiRNN、BiRNN with LSTM、BiRNN with GRU、多層RNN等模型。

    Decoder 是以 Encoder 輸出的向量作爲輸入,並輸出目標文本序列,本質上是一個語言模型,通常使用 Recurrent Neural Network Language Model (RNNLM),同樣也會用 LSTM、GRU 等模型。

  • Attention Mechanism

    Encoder 輸出的向量更多地表示輸入序列中最後一個單詞的意思,因此加入注意力機制有助於該向量更多地關注其中重要的單詞。

  • 整體思路

    1. 將自動文摘問題構造成 seq2seq 問題,一種做法是將某段文本的第一個句子作爲輸入,headlines 作爲輸出,變成 headlines generative 問題。

    2. 選擇大規模語料庫作爲數據集。

    3. 選擇合適的 Encoder。

    4. 選擇合適的 Decoder。

    5. 設計合適的 attention model。

    6. 設計 copy net。由於測試時部分詞彙可能不在訓練的單詞表裏,因此需要用 copy net 將輸入的詞 copy 到最終輸出。

論文:

  1. (EMNLP 2015) A Neural Attention Model for Abstractive Sentence Summarization

  2. (ICLR 2018) A Deep Reinforced Model for Abstractive Summarization

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章