文本自動摘要

原創

2018-09-05 01:41

文本自動摘要（自動文摘）Text Summarization 指自動地從原始文檔中提取摘要，摘要是全面準確地反映該文檔中心內容的簡單連貫的短文。

應用

學術文獻、會議記錄、電影劇本、學生反饋、軟件代碼、直播文字

時間成本太高，效率太低

給定參考摘要作爲標準答案，通過制定一些規則來給生產的摘要打分。

ROUGE 系統（Recall-Oriented Understudy for Gisting Evaluation）：將待審的摘要和參考摘要的 n 元組共現統計量作爲評價依據，通過一系列標準進行打分。

包括 ROUGE-N (ROUGE-1, ROUGE-2, ROUGE-3, ROUGE-4), ROUGE-L, ROUGE-W，ROUGE-S, ROUGE-SU

從原文中找到一些關鍵的句子，組合成一篇摘要。

理解原文並用簡潔文本表達。

方法：

Encoder-Decoder 框架

Encoder 是將輸入序列表示成一個帶有語義的向量，通常使用 LSTM、GRU 等 RNN 模型，複雜的也有 BiRNN、BiRNN with LSTM、BiRNN with GRU、多層RNN等模型。

Decoder 是以 Encoder 輸出的向量作爲輸入，並輸出目標文本序列，本質上是一個語言模型，通常使用 Recurrent Neural Network Language Model (RNNLM)，同樣也會用 LSTM、GRU 等模型。
Attention Mechanism

Encoder 輸出的向量更多地表示輸入序列中最後一個單詞的意思，因此加入注意力機制有助於該向量更多地關注其中重要的單詞。
整體思路
1. 將自動文摘問題構造成 seq2seq 問題，一種做法是將某段文本的第一個句子作爲輸入，headlines 作爲輸出，變成 headlines generative 問題。
2. 選擇大規模語料庫作爲數據集。
3. 選擇合適的 Encoder。
4. 選擇合適的 Decoder。
5. 設計合適的 attention model。
6. 設計 copy net。由於測試時部分詞彙可能不在訓練的單詞表裏，因此需要用 copy net 將輸入的詞 copy 到最終輸出。

論文：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.