AI實戰:文本自動摘要簡述

文本自動摘要

兩大分類

  • 抽取式摘要
  • 生成式摘要

1、抽取式摘要

分爲無監督和有監督。

  • 無監督方法:
    (1)基於統計特徵的tfidf
    (2)文本聚類
    (3)基於圖特徵的TextRank、LexRank
    (4)MMR,全稱爲Maximal Marginal Relevance,它的核心思想同時考慮了內容相關性和多樣性
    (5)submodular(次模)函數

  • 有監督方法:
    (1)SummaRuNNer:基於RNN,詞級別做RNN編碼,句子級別做RNN編碼,最後判斷每個句子是否屬於摘要句子。
    論文地址:SummaRuNNer: A Recurrent Neural Network based Sequence Model for Extractive Summarization of Documents

2、生成式摘要

大部分都是基於的seq2seq框架

中文語料庫

Large Scale Chinese Short Text Summarization Dataset(LCSTS)
這是一箇中文短文本摘要數據集,數據採集自新浪微博。

測評方法

  • Edmundson
    Edmundson評價方法比較簡單,是通過比較自動文摘與目標文摘的句子重合率的高低來對系統摘要進行評價。

  • ROUGE
    ROUGE是由ISI的Lin和Hovy提出的一種自動摘要評價方法,是主流測評方法。

    ROUGE-N系列,其實就是以n-gram爲基本單元,計算兩個句子之間的n-gram重合率。每個ROUGE系列的計算結果又可以細分爲precision,recall和f-beta分數。

    ROUGE-L是針對是最長公共子序列的重合率計算。

    ROGUE-W與ROUGE-L類似,不同的是考慮了連續最長公共子序列應該擁有更大的權重。

    ROUGE-S,基於的是skip-gram。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章