點這裏排版好

拖延症拖了一個星期 ?‍♀️
然後在查文獻的時候發現中文的資料比較少於是

文本摘要 算是NLP領域一個還實用的細分領域吧

其實按我的理解 文本摘要 是一個披着NLP外衣的CV領域內容(至於爲什麼請dalao往下面看)

想想一下每每看見震驚公交車上? 有男子做出如此不堪的事這樣的標題

可能不自覺的就腦補一些你以爲會發生的事

結果點開鏈接發現這根本就不是你想想的那會事

然後你會痛罵一身標題黨小gg 然後默默的關閉了網頁

如果在你點開鏈接之前已經有一個整理好的概述這個時候是不是標題黨就一目瞭然了

文本摘要解決的就是在大數據環境下如何利用NLP技術對文章進行概括

`feature` era

早在上世紀五十年代就有學者開始研究Text Summarization問題提出利用諸如詞頻首段首句標題等等一些特徵值對文章進行自動化概括

本質上來說這些都是屬於特徵工程範疇的工作利用一些人類認知上的明顯的特徵關係找到文章與生成的摘要之間的匹配關係

當然可以想象到純人力挖掘特徵能達到的效果有限

但限於算力的制約一直到近年隨着深度學習在ImageNet上嶄露頭角才稍有起色

`Extractive` Vs `Abstractive`

因爲我們已經對NLP領域問題分析的套路已經有一些認識

以上的思路主要是從文本中原有信息根據人類普遍意識上的認識提取出對應於文章的一段文字這是一種Extractive方法

很容易想到除了抽取之外還可以通過對NN Output的參數進行 decoder操作進行Abstractive操作

生成式的思維其實更符合人類習慣但相對於現有的技術而言效果會比較差

之前我們在多輪檢索式對話中分析的也是抽取式的模型

我們對檢索式的大致套路已經有所瞭解

先對原有的文本做一個表示可以是word 粒度的也可以是上下文粒度的

在QA問題上從基於表示的思路變換到基於交互的思路

但 QA問題和摘要問題側重點不太一樣

QA 更能反映NLP問題的時序性對話中上一句接着下一句

在對話過程中 Topic很重要非停用詞很重要語言風格也很重要但Topic可能變化語言風格也可能變化停用詞也許會變成至關重要的

對話系統側重抓取時序上的信息

而Text summarization這個問題中側重於Topic的挖掘時序上的信息變得沒那麼重要

直觀上感受文本挖掘只要從一篇已有的文章中從排好隊的詞陣列中抽取這篇文章最重要的詞組成它的摘要

這一點就和圖像識別很類似-從一張已有的圖片中根據像素分佈抽取出能代表周圍一塊區域的特徵

所以目前 Text Summarization 領域中效果比較好的還是CNN與seq2seq結合的模型

（當然QA也一樣會用到CNN 那裏的CNN做的也同樣是抽象的功能）

`Extractive`

抽取特徵的思路可以分爲抽取主題和抽取指示符

抽取主題方法, 比如說淺語義LSA、LDA 詞頻主題詞貝葉斯 et al.
- 這種方法側重於試圖尋找語義上的主題
指示符(你可以粗暴的理解爲特徵):
- 比如說: 句子長的可能是更重要的在文檔中位置靠前的可能更重要具有Title中某些詞的句子可能更重要

Extrative 然後根據這些方法對每個句子進行一個評分的操作

然後一樣的套路根據這個評分召回可能重要的k個句子

再對這k個句子做加工比如說貪心的認爲@1的是這個文章的摘要也有模型針對最大化整體一致性及最小化冗餘進行優化

除了抽取特徵的思路之外還有基於知識庫（對vertical domain 進行分析）

Topic Words

在Toipic word是的思路下有諸如

詞頻閾值: 詞頻超過一個閾值的情況下它就是主題詞
主題簽名詞: 有些時候主題可以通過多種多樣的詞語表示每個主題簽名詞的詞頻並不一定高
- 通過建立對數似然估計檢驗來識別這些 主題簽名詞
- 可以是計算主題簽名詞數量的頻次（偏向長句子）
- 也可以是計算主題簽名詞的佔比句子中總詞數的比例（偏向高主題詞密度句）

Frequent-driven

詞頻方法較爲簡單主要是直接算詞頻或者利用Tf-Idf計算詞頻

Latent Semantic Analysis

淺語義主要就是做矩陣分解計算SVD 那麼得到的中間矩陣就可以看作爲原矩陣的Topic

當然 LSA之後還有基於Dirichlet分佈的LDA

Graph Method

基於PageRank的思想把文章抽象爲graph 其中句子代表graph中的節點邊權值則爲句子和句子之間的相似度

最簡單的相似度的做法就是 Tf-idf

要想獲得更好的效果可以嘗試用一下QA中使用的基於基於交互、雙向GRU、Transform等等辦法

計算出各邊值之後就按照PageRank的思路計算重要節點這些重要節點就是我們需要的摘要句子

講到這裏我們不難想到如何把之前多輪檢索式對話系統中用到的計算context-reply之間關聯度的方法用在這裏

可能會有不錯的效果但老年人不能安逸與現狀對吧檢索式我們做過了生成式還沒有實踐過 so ?

Graph方法比較有名的比如說LexRank, TextRank

Mechanical Learning

本質上 抽取式文本摘要 也是一個分類問題把所有文本分類爲是文本摘要和不是文本摘要的

分類問題就有很多操作的空間比如說用樸素貝葉斯決策樹 SVM HMM

但樣本集標註信息較難取得故有學者提出半監督的模型

通過同時訓練兩個分類器每次迭代時把具有最高分的未標記訓練集扔到標記訓練集中以此迭代

`Abstractive`

隨着NN及seq2seq對機器翻譯上表現出的顯著提升

相應的技術也逐漸應用在Text Summarization領域上

實際上在文本摘要這個領域中很多技術是借鑑與機器翻譯的

比如說受到NMT(Neural Machine Translation)中Attention和NN的應用的啓發，有學者提出NNLM(Neural Network Language Model)結構

之後有人用RNN代替NNLM 比如說ABS什麼的

在這樣的模型中會出現幾個問題

不能像抽取式一樣獲取到文本的重要消息
無法處理OOV(out-of-vocabulary)問題
- 當然我覺得OOV是預處理不好產生的問題
- OOV就是test dataset中存在train model建立的詞表中沒有的詞
- 像這個問題可以簡單粗暴的把OOV用零向量或者<UNK>代替丟到NN中訓練
- 也可以用char-level粒度的模型
- 要麼優化你的分詞器
- 再有就是用FastText
然後還有一個比較關鍵的是詞句重複
Seq2seq模型還會出現exposure bias和訓練與預測結果不一致
- Exposure bias指的是訓練時，輸出是有真實的輸入決定的; 而預測時，輸出由前一個生成的輸出決定的，這就導致因爲生成的誤差累計造成最後一層輸出較大的偏差
- 訓練和預測評價不一致是因爲我們在評價這類問題使用的是不可微分的指標比如說ROUGH，而Loss函數用的是對數似然估計不一致。這個可以通過強化學習(RL)來緩解
- 有很多學者基於RL做了一些工作有不錯的結果

我們知道在NLP中處理語句時序信息的分析常見的套路就是RNN系什麼LSTM Bi-LSTM GRU Bi-GRU

但在數據量比較的大的時候比如說海量文本摘要分析這個問題上

RNN因爲要前後迭代複雜度較大會出現梯度消失梯度爆炸?的問題（其中有學者提出梯度範數裁剪解決這個問題）

因爲Text Summarization 這個問題沒有 QA那麼強的時序性要求實驗發現利用CNN也有較好的效果

在這種CNN-seq2seq模型中先用一個encoder的CNN把原文映射到Hidden層上去然後根據這個Hidden層輸出的值再用一個decoder的CNN輸出生成的摘要

ConvS2S

[Jonas Gehring et.al. ICML 17]

ConvS2S = Convolutional Sequence to Sequence Learning

這篇論文是Facebook工作很久的產物去年發出來和現在Bert差不多的效果

CNN相較於RNN而言可以並行而且不會出現梯度消失 可以更好的選取長距離的信息(這太像Transform了吧)

ConvS2S 採用的是帶Attention的Encoder-decoder結構其中encoder和decoder用的是相同的卷積結構

~~(在ConvS2S上面我看到了Bert的影子)~~

首先 ConvS2S 採用了Transform 或者說Bert 中使用的Position Embedding 然後也是和Bert一樣簡單粗暴的把Position Embedding 和 word Embedding加和在一起

我們再來複習一下Bert 可以發現Bert的word Embedding比他好一丟丟(類似完形填空的深度雙向Encoding) 除了上述兩個Embedding之外還加了一個句粒度的負採樣Segment Embedding

只不過在這裏處理好的Embedding是丟到CNN中訓練而不是丟到Attention中訓練

在ConvS2S中除了傳統的CNN之外還有一層 Multi-step Attention

這裏的 Attention 權重是由當前層decoder輸出和所有層 encoder加權決定的

這樣使得模型在考慮下一個decoder的時候之前已經Attention過的詞也能佔到不少的權重

ConvS2S使用GLU做gate mechanism

然後 ConvS2S還進行了梯度裁剪權重初始值等優化使得模型很快很work

最後將decoder輸出與encoder的輸出做dot 構造對齊矩陣

Topic-ConvS2S

[Shashi Narayan et.al. EMNLP 18]

這篇文章是愛丁堡大學的dalao在今年EMNLP上發表的成果

之前我們做的Text Summarization多少都用到點抽取到的信息即使是生成式的任務

這篇文章想完成一個極端概括的任務把大段的文章用一句話概括

這個任務就和文章的Title 不一樣 Title目的是讓讀者有興趣去閱讀這篇文章

而概括這是需要考慮到散佈在文章各個區域的信息

Topic-ConvS2S主要的工作一個是建立XSum DataSet 然後就是把Topic 和ConvS2S結合在一起

模型利用LDA獲取一層Topic Sensitive Embedding

$e_i=[(x_i+p_i);(t_i'$ ⊗ $t_D)]\in R^{f+f'}$

其中 $x_i$ 爲word Embedding, $p_i$ 爲Position Embedding, $t_i$ 爲文檔中單詞的分佈, $t_D$ 爲文檔中主題的分佈

通過構造 $e_i$ 來獲取關於Topic的Embedding信息

其他的和ConvS2S基本一致同樣用到兩個相同的encoder-decoder卷積結構同樣是Mult-step Attention 連圖都很像是吧

RLSeq2seq

[Yaser Keneshloo et.al. sCCL 18]

前面我們seq2seq的使用時會出現 Exposure Bias和訓練與預測評價不一致的問題

強化學習就是來解決這個問題的一種方式

強化學習就是通過一些獎懲使得向某一目標學習以期習得針對任意給定狀態的最佳行動

在本模型的獎懲就是當生成完整個句子之後通過ROUGE等評估方法得到的反饋

這樣原來因爲交叉熵計算出的Loss 與評價體系 Rough 不一致的問題就能夠得到解決

Reinforced Topic-ConvS2S

[Li Wang et.al. IJCAL 18]

這篇是騰訊聯合哥倫比亞、蘇黎世聯邦理工發佈的基於Topic-ConvS2S的 Text Summarization論文

實際上你可以發現論文基本和前面的Topic-Convs2S 一致只是增加了RL的內容

~~目測應該是同期論文否則根本發佈出去~~

雖然在Topic上面用的也是LDA 一樣是在預處理階段對Topic進行劃分

但前面的Topic-ConvS2S是把原來的word Embedding和Topic獲得的信息直接相加

在本文利用一個Joint Attention 再加上Bias Probability來實現與word Embedding的結合

之後在Loss函數的地方利用強化學習中self-critical sequence training (SCST)

使得不可微分的ROUGH指標最大化

在訓練過程中根據輸入序列X生成兩個輸出序列

我們先貪心地選擇能使得輸出概率分佈最大的單詞作爲第一序列y1

再加上從分佈中採樣中生成的另一個輸出序列y2

於是這兩個序列獲得的ROUGE分數則是強化學習的Bonus

CAS

[Angela Fan et.al., ACL 18]

CAS = Controllable Abstractive Summarization

這篇論文是之前facebook發ConvS2S 那個團隊的後續工作

字面意思就是可控的生成式摘要

目前的文本摘要對於所有人顯示的摘要一樣

但其實這是很不友好的比如說一個吳亦凡和黃子韜兩個人的新聞結果你只是吳亦凡的粉絲不想看到濤濤相關的內容

這個時候就需要能夠控制Text Summarization長度內容的摘取

文章從下面幾個角度對個性化進行研究

Length-Constrained
Entity-Centric
Source-Specific
Remainder

`Evaluation`

實際上文本摘要問題在模型效果判斷上面較爲難處理

目前來說 Rough 效果一般但總不能用人工評價吧

Rough是一個模型評價集合，其中

Rough-n 基於召回率的評估，預測結果與參考摘要之間的公共n-gram數/參考摘要內的n-gram數
Rough-L 基於最長公共子序列LCS 公共子序列越長 evaluation越高
Rough-SU 可不連續的bi-gram 和 uni-gram 相較於Rough-n 不要求gram連續

如何用NLP技術和標題黨說拜拜-文本摘要

`feature` era