《A DEEP REINFORCED MODEL FOR ABSTRACTIVE SUMMARIZATION》

九月份第三週論文筆記

這周讀的是《A DEEP REINFORCED MODEL FOR ABSTRACTIVE SUMMARIZATION》這篇文章,作者主要有兩個創新點:提出了改進的注意力機制intra-attention;將強化學習的方法加入到了模型的訓練過程中,提高抽取式摘要的可讀性

模型還是基於經典的encoder-decoder架構:綠色向量C是將encoder每一步的隱層輸出做注意力加權得到的;藍色向量C則是decoder當前步之前所有的隱層輸出加權得到的;H代表的是當前步的隱層輸出;三者做向量的拼接操作得到對應的特徵向量進行下一個詞的預測。


Intra-attention介紹

       先介紹intra-attention:所謂intra-attention即我們之前介紹的self-attention,主要有兩種方式分別爲加法attention和乘法attention,其計算過程如下:本文中採用的乘法attention,並進行了改進。

改進之後的attention機制如下圖所示(綠色向量c的計算):首先基於當前步的decoder輸出及之前的encoder每一步的隱層輸出計算其相關性,然後基於計算的相關性進行scale和softmax得到最終的注意力係數。

Decoder部分的計算公式如下(藍色向量C):區別就是計算是基於當前decoder步的輸出和之前步的decoder隱層輸出計算注意力係數;其餘部分均一致。

Token generation的方法

最終基於兩種方法進行一種是基於softmax進行;另一種則是基於指針網絡進行詞的生成;我們通過一個sigmod函數計算使用對應方式的概率:

然後計算不同情況下的得分:分別是softmax的概率分佈和指針網絡的注意力係數分佈(二者維度相同,均爲詞的個數):

最後計算其概率分佈,還需注意的是encoder和decoder使用相同的詞向量嵌入:

混合訓練函數:

此部分我們介紹加入了強化學習方式的訓練方法,傳統的監督學習方式的損失函數爲最大似然損失:通過最小化下面的損失函數進行訓練,相當於最大化真實值的概率;缺點是存在暴露偏差,這是RNN中很常見的問題;

我們通過強化學習減緩暴露偏差的問題,通過強化學習最大化一個特殊的度量值一般爲ROUGE-1係數,使用self-critical 的策略梯度下降進行訓練。先介紹self-critical策略梯度下降法:每次訓練過程,都會生成兩個輸出序列:ysy;分別通過在每一個decoder解碼過程基於條件概率進行隨機採樣獲得和最大化輸出概率分佈獲得(貪心算法的過程);使用ROUGE-1作爲獎勵函數;損失函數如下:

其計算流程如下:理論上來說通過貪心算法生成的詞帶來的獎勵是遠高於隨機採樣帶來的獎勵的,所以上式的值爲正;萬一隨機採樣的詞帶來的收益高於貪心的收益,在這個詞的維度上收益就是負數,梯度就會下降,詞分數就會上升

最終我們混合兩部分的損失函數得到:

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章