摘要
提出了使用生成器和鑑別器來進行文本摘要提取的模型,使用生成器G來作爲 an agent of reinforcement learning,將raw text 作爲預測輸入 來預測摘要。我們還建立了一個鑑別器,試圖區分生成的摘要和真實摘要。
挑戰:
- 神經序列到序列模型往往會產生瑣碎的、通用的總結,通常涉及高頻短語
- 生成的摘要語法性和可讀性有限
- 在大多數以前的工作中,標準的序列到序列模型被訓練來使用最大似然估計(MLE)目標函數來預測總結中的下一個單詞。
缺點:
- 評價指標與訓練損失不同
- 解碼器在每個時間步驟中的輸入往往來自訓練過程中的真實摘要。
- 在測試時,下一個詞 的輸入是來自上解碼器生成的上一個詞的,這種暴露偏差會導致測試時的錯誤積累。
方法:
- 生成器G以原文爲輸入,生成摘要。我們使用強化學習(即策略梯度)來優化G,以獲得高回報的總結。有效地繞過了暴露偏差和不可微任務度量問題。
- 我們將鑑別器D實現爲文本分類器,學習將生成的摘要分類爲機器生成或人工生成。
- 優化是一個 二元極小極大博弈(minimax two-player game)
- 鑑別器試圖分辨真實值和生成的摘要,生成器的訓練過程最大化最大限度地提高D犯錯誤的概率。
模型
- 首先預訓練生成模型,生成給定源文本的摘要
- 我們通過從人類生成的摘要中提供正樣本和從預先訓練的生成器中產生的負樣本來對鑑別器進行預訓練。
- 預訓練後,對生成器和鑑別器進行交替訓練
Generative Model
生成器源文本的長度
預測的摘要
我們使用雙向lstm對輸入的文本進行編碼,在時間步長t上,然後使用基於注意的LS TM解碼器來計算解碼器和上下文向量ct的隱藏狀態st。
預測target:
也使用了pointer-generator network的 copy思想,最終得到每一個token的概率
Discriminative Model
鑑別器是一個二分類的模型。
- 我們用CNN對輸入序列進行編碼,因爲它在文本分類中顯示出很好的效果。
- .我們使用具有不同窗口大小的多個過濾器來獲得不同的特徵,然後在特徵上應用最大超時池操作。
- 這些集合特徵被傳遞到一個完全連接的Softmax層,其輸出是原始的概率。
更新參數
在對抗過程中,使用鑑別器作爲獎勵函數可以通過動態更新鑑別器來進一步迭代改進生成器。
一旦我們獲得了由發生器G生成的更現實和高質量的摘要,我們將鑑別器重新訓練爲: