文本摘要(text summarization)五: 統計模型(text_pronouns、text_teaser,feature-base)

一、文本摘要(統計模型)

        統計模型(feature base)是深度學習興起之前,最有效果,應用最廣泛的文本摘要技術方案。統計學習方法,即便是在今天,基於統計的文本摘要模型,也是一個重要的baseline,以及高併發複雜條件下的有效算法。

        應用比較多的應該是text teaser(Automatic Text Summarization for Indonesian Language Using TextTeaser(2013)),以及早年比較出名的text pronouns(Sentence Extraction Based Single Document Summarization(2005))等。

        github項目地址:https://github.com/yongzhuo/nlg-yongzhuo/tree/master/nlg_yongzhuo/text_summarization/extractive_sum/feature_base

二、文本摘要之text_teaser

        text teaser算法,這是一篇2013年的paper提出的。讓人詫異的是,作者居然是印度尼西亞和沙特阿拉伯的。不過瞅一瞅文章的標題,也就能明白了,Automatic Text Summarization for Indonesian Language Using TextTeaser,研究的是印尼語。

        這篇論文把幾種常見的特徵用於計算抽取式文本摘要,突出的特點在於其對文章標題的極度重視。論文中這樣提及:“通過對文章標題特徵、句子長度、句子位置、關鍵詞頻率等四個因素的計算,得出了最佳得分句子。”

        抽取的特徵有:

                1.  文章標題特徵:(當前句子與文章標題詞語的交集) 除以 (文章標題的詞語的個數)

                2.  句子長度: 以一個標準長度爲基準,約大於或者小於該標準長度,得分越低;

                3.  句子位置: 用的是別人家的數據標準,句子在句首、句中、句末等不同位置都有不同固定的得分,以比率計算;

                4.1  關鍵詞權重:首先取去全文中除停用詞後詞頻最高的10個詞作爲關鍵詞,關鍵詞頻率+出現該詞的句子條數;

                4.2  句中關鍵詞密度(DBS):(兩個關鍵詞權重乘積) 除以 (兩個關鍵詞間的長度距離的平方) 除以 (關鍵詞個數的平方);

                4.3  句中關鍵詞權重(SBS):[開 (所有關鍵詞權重的x次方相加) x次方] 除以 (句子中詞語個數);

                4.句子中關鍵詞重要性: (DBS+SBS) / 20

 

三、文本摘要之text_pronouns

        text pronouns,是2003年發表的一篇paper,Sentence Extraction Based Single Document Summarization(2005)。主要講的是如何構建一些抽取式但文本摘要特徵等,同時給出文本摘要系統的一般構建流程、通用方案等。在github和百度上搜索沒有發現實現方案,自己實現了一個。

        論文中提出的特徵,包括句子級別(sentence)和詞語級別(word):

        3.1  句子級別:

                1.  句子位置;

                2.  是否有動詞,這是構成摘要句子句式的重要特徵;

                3.  句子中出現的指代詞是專有名詞的情況;

                4.  句子長度

        3.2  詞語級別:

                1.  字、詞,尤其是專有名詞的頻率,可以考慮n-gram特徵

                2.  平均單詞(詞語)長度;

                3.  詞語標籤,如詞性、依存句法等;

                4.  詞語權重,wordnet等;

                5.  命名實體NE;

                6.  出現在標題、副標題的詞語;

                7.  詞語印刷格式,大小寫等。

 

希望對你有所幫助!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章