文本摘要常用數據集和方法研究綜述

[1]侯聖巒,張書涵,費超羣.文本摘要常用數據集和方法研究綜述[J].中文信息學報,2019,33(05):1-16.

文章目錄

LCSTS

數據集定義

NLPCC

數據集定義

自建數據集及其對應方法

爲了解決抽取式摘要方法缺少訓練數據的問題，已有方法通常將用於生成式文本摘要的數據集進行簡單轉換，例如， Cheng等【參考文獻6】將CNN/ Daily Mail數據集中的每篇文本中句子與生成式摘要句計算匹配度，匹配度較高的句子作爲抽取式摘要句，構成抽取式摘要方法的數據集。

數據集Gigaword、 CNN/ Daily mail、 LASTS等都是十萬級規模，可滿足深度神經網絡訓練的需求。

LCSTS

LCSTS（large scale Chinese short text summa rization dataset）鏈接：http://icrc.hitsz,educn/article/Show/139.html. 是【23—Hu B Chen Q, Zhu F. LCSTS:A large scale Chinese short text summarization dataset】從新浪微博獲取的短文本新聞摘要數據庫，規模超過200萬。

隨着微博等社交媒體軟件的普及，部分工作提出了面向社交媒體文本的文本摘要算法。由於中文社交媒體文本大都是短文本，具有篇幅較短、存在較多噪聲等特點，傳統的文本摘要方法在這類文本上往往效果較差。

數據集定義

【24—Ma s, Sun X, XuJ, et al. Improving semantic relevance for Sequence-to- Sequence learning of Chinese social media text summarization】提出面向中文社交媒體短文本摘要的方法，基於深度學習的抽取式摘要，採用循環神經網絡的“編碼器–解碼器”和“注意力”機制。較Hu等【23】的方法有所提升。

NLPCC

自然語言處理與中文計算會議（ CCF Conference on Natural Language Processing &.Chinese Computing, NLPCO）是由中國計算機學會（CCF）舉辦的自然語言文本測評會議，包括文本摘要、情感分析、自動問答等任務。 http://tcci.ccf.org.cn/conference

數據集定義

特點：新聞文本不分領域、不分類型，篇幅較長。

在此數據集上，【25—莫鵬，胡珀，黃湘冀，等。基於超圖的文本摘要與關鍵詞協同抽取研究】提出基於超圖的文本摘要和關鍵詞生成方法

將句子作爲超邊(hyperedge)，將詞作爲節點(vertice)構建超圖(hypergraph)。

利用超圖中句子與詞之間的高階信息來生成摘要和關鍵詞。

【文獻26—Xu H, Cao Y, Shang Y, et al. Adversarial reinforcement learning for Chinese text summarization】針對已有的利用極大似然估計來優化的生成式摘要模型存在的準確率低的問題，提出了
一種基於對抗增強學習的中文文本摘要方法，提升了基於深度學習方法在中文文本摘要上的準確率。
方法在LCSTS和NLPCC2015數據集上進行了測評。

自建數據集及其對應方法

基於統計的方法

常用的特徵：句子所在位置、TF-IDF、n-gram等

文獻27【An effective sentence-extraction technique using contextual information and statistical approaches for text summarization. Pattern Recognition letters，2008.】，提出一種基於上下文特徵和統計特徵的摘要句提取方法

將每兩個相鄰的句子合併爲一個二元語言模型僞句子（ Bi-Gram pseudo sentence，BGPS），BGPS包含比單個句子更多的特徵根據統計方法對BGPS進行重要程度打分，選取分值較高的BGPS對應的句子作爲摘要句。

基於統計的文本摘要方法較爲直觀，抽取的特徵相對簡單，因此方法較易實現，但準確率較低。這類方法同樣適用於中文文本摘要任務。

基於圖模型的方法

文獻【Comments oriented document summarization：understanding documents with readers’ feedback】中，對於web文本，不僅考慮文本內容本身，還將讀者的評論信息加入文本摘要抽取

將評論作爲節點，評論之間的關係作爲邊，利用圖模型對評論的重要程度進行打分。兩種方法：

通過評論的關鍵詞來對候選摘要句進行打分；

將原文本和評論組成一個“僞文本”，對其進行打分。

文獻29【林莉媛，王中卿，李壽山，等.基於PageRank的中文多文檔文本情感摘要[J]. 中文信息學報，2014】，提出基於情感信息的PageRank多文本情感摘要方法，考慮了情感和主題兩方面信息，數據集來自亞馬遜中文網https://www.amazon.cn，收集15個產品的評論語料，每個產品包括200條評論，自建了包括15個主題的多文本摘要數據集。選取48個句子作爲該主題的摘要句。

基於詞法鏈的方法

文獻31【Chen Y wang x, Guan Y. Automatic text summarization based on lexical chains】，首次將詞法鏈應用到中文，提出了基於詞法鏈的中文文本摘要。

首先利用HowNet作爲詞法鏈構建知識庫，然後識別強詞法鏈，最後基於啓發式規則選取摘要句。

文獻32【Yu L, Ma J, Ren F,et al. Automatic text summarization based on lexical chains and structural features 】，提出了基於詞法鏈和結構特徵的中文文本摘要方法。

同樣利用HowNet構建詞法鏈，結構特徵包括句子的位置（如是否爲首句）等。利用詞法鏈特徵和結構特徵進行加權對句子的重要程度進行打分，選取摘要句。

文獻33【Wu X，Xic F, Wu U, et al. PNFS; personalized web news filtering and summarization】，提出了個性化Web新聞的過濾和摘要系統PNFS

總結並提取能夠刻畫新聞主題的關鍵詞。

關鍵詞的提取利用基於詞法鏈的方法[34]，利用詞之間的語義相關性進行語義消歧並構建詞法鏈。

傳統詞法鏈主要由名詞和名詞短語構成，缺少動詞等所包含的語義信息。文獻35，提出了全息詞法鏈，包括名詞、動詞、形容詞三類詞法鏈，包括了文章的主要語義信息。根據句子中的全息詞法鏈中的詞特徵，利用邏輯迴歸、支持向量機等機器學習方法學習摘要句。

基於篇章結構的方法

文獻36【王繼成，武港山，周源遠，等.一種篇章結構指導的中文Web文檔自動摘要方法】，提出中文Web文本自動摘要方法，首先分析段落之間的語義關聯，將語義相近的段落合併，劃分出主題層次，進而得到篇章結構。在篇章結構的指導下，使用統計的方法，結合啓發式規則進行關鍵詞和關鍵句子的提取，最終生成中文Web文本的摘要。

基於機器學習的方法

文獻37【Hu P, He T, Ji D. Chinese text summarization based on thematic area detection】，提出了基於主題的中文單文本摘要方法

首先通過段落聚類發現文本所反映的主題，然後從每一個主題中選取與主題語義相關性最大的一句話作爲摘要句，最後根據選取的摘要句在原文本中的順序組成最終的摘要。

文獻38【Baumel T, Cohen R, Elhadad M. Query-chain focused summarization】，提出了基於LDA主題模型的新型文本摘要任務：面向查詢的更新摘要方法。

更新摘要是：已經提取出來摘要句，在避免冗餘的前提下，將新內容加入摘要中。

面向查詢的摘要：提取出與查詢相關的重要句子作爲摘要句。

綜合以上兩點：用戶的第n條查詢語句得到的結果要在前n-1條查詢語句結果的摘要上進行更新摘要。

文獻40【龐超，尹傳環.基於分類的中文文本摘要方法.計算機科學，2018】，結合循環神經網絡的“編碼器–解碼器”結構和基於分類的結構，提出了一種理解式文本摘要方法。同時在此結構中使用了“注意力”機制，提升了模型對於文本內容的表達能力。

。

文本摘要常用數據集和方法研究綜述

文章目錄

LCSTS

數據集定義

NLPCC

數據集定義

自建數據集及其對應方法

基於統計的方法

基於圖模型的方法

基於詞法鏈的方法

基於篇章結構的方法

基於機器學習的方法

JavaWeb - Response筆記

JavaWeb - Ajax&Json筆記

gensim.models.LdaModel建立新聞的LDA模型並測試，附代碼和文本數據

sklearn.feature_extraction.text中常見 Vectorizer 使用方法以及Tf–idf 值獲取

代碼！以備不時之需！中文文本預處理（停用詞、空格分隔、按行分類）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結