文本摘要(text summarization)五: 統計模型（text_pronouns、text_teaser，feature-base）

原創

2020-06-20 15:07

一、文本摘要（統計模型)

統計模型（feature base）是深度學習興起之前，最有效果，應用最廣泛的文本摘要技術方案。統計學習方法，即便是在今天，基於統計的文本摘要模型，也是一個重要的baseline，以及高併發複雜條件下的有效算法。

應用比較多的應該是text teaser(Automatic Text Summarization for Indonesian Language Using TextTeaser(2013))，以及早年比較出名的text pronouns(Sentence Extraction Based Single Document Summarization(2005)）等。

github項目地址:https://github.com/yongzhuo/nlg-yongzhuo/tree/master/nlg_yongzhuo/text_summarization/extractive_sum/feature_base

二、文本摘要之text_teaser

text teaser算法，這是一篇2013年的paper提出的。讓人詫異的是，作者居然是印度尼西亞和沙特阿拉伯的。不過瞅一瞅文章的標題，也就能明白了，Automatic Text Summarization for Indonesian Language Using TextTeaser，研究的是印尼語。

這篇論文把幾種常見的特徵用於計算抽取式文本摘要，突出的特點在於其對文章標題的極度重視。論文中這樣提及：“通過對文章標題特徵、句子長度、句子位置、關鍵詞頻率等四個因素的計算，得出了最佳得分句子。”

抽取的特徵有：

1. 文章標題特徵：(當前句子與文章標題詞語的交集) 除以 (文章標題的詞語的個數)

2. 句子長度: 以一個標準長度爲基準，約大於或者小於該標準長度，得分越低；

3. 句子位置: 用的是別人家的數據標準，句子在句首、句中、句末等不同位置都有不同固定的得分，以比率計算；

4.1 關鍵詞權重：首先取去全文中除停用詞後詞頻最高的10個詞作爲關鍵詞，關鍵詞頻率+出現該詞的句子條數；

4.2 句中關鍵詞密度(DBS)：(兩個關鍵詞權重乘積) 除以 (兩個關鍵詞間的長度距離的平方) 除以 (關鍵詞個數的平方)；

4.3 句中關鍵詞權重(SBS)：[開 (所有關鍵詞權重的x次方相加) x次方] 除以 (句子中詞語個數)；

4.句子中關鍵詞重要性: (DBS+SBS) / 20

三、文本摘要之text_pronouns

text pronouns，是2003年發表的一篇paper，Sentence Extraction Based Single Document Summarization(2005)。主要講的是如何構建一些抽取式但文本摘要特徵等，同時給出文本摘要系統的一般構建流程、通用方案等。在github和百度上搜索沒有發現實現方案，自己實現了一個。

論文中提出的特徵，包括句子級別(sentence)和詞語級別(word):

3.1 句子級別：

1. 句子位置；

2. 是否有動詞，這是構成摘要句子句式的重要特徵；

3. 句子中出現的指代詞是專有名詞的情況；

4. 句子長度

3.2 詞語級別：

1. 字、詞，尤其是專有名詞的頻率，可以考慮n-gram特徵；

2. 平均單詞(詞語)長度；

3. 詞語標籤，如詞性、依存句法等；

4. 詞語權重，wordnet等；

5. 命名實體NE;

6. 出現在標題、副標題的詞語；

7. 詞語印刷格式，大小寫等。

希望對你有所幫助!

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

文本摘要(text summarization)五: 統計模型（text_pronouns、text_teaser，feature-base）

常用python算法實現（二）——前綴樹TrieTree

超參數優化與NNI(HPO，Hyper-parameter optimization)

中文短文本分類實例十四-LEAM（Joint Embedding of Words and Labels for Text Classification）

NLG文本生成算法一TextRank（TextRank: Bringing Order into Texts）（jieba,TextRank4ZH,gensim實現比較）

Macropodus自然語言處理(NLP)工具包(Albert+BiLSTM+CRF)

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結