《A DEEP REINFORCED MODEL FOR ABSTRACTIVE SUMMARIZATION》

九月份第三周论文笔记

这周读的是《A DEEP REINFORCED MODEL FOR ABSTRACTIVE SUMMARIZATION》这篇文章,作者主要有两个创新点:提出了改进的注意力机制intra-attention;将强化学习的方法加入到了模型的训练过程中,提高抽取式摘要的可读性

模型还是基于经典的encoder-decoder架构:绿色向量C是将encoder每一步的隐层输出做注意力加权得到的;蓝色向量C则是decoder当前步之前所有的隐层输出加权得到的;H代表的是当前步的隐层输出;三者做向量的拼接操作得到对应的特征向量进行下一个词的预测。


Intra-attention介绍

       先介绍intra-attention:所谓intra-attention即我们之前介绍的self-attention,主要有两种方式分别为加法attention和乘法attention,其计算过程如下:本文中采用的乘法attention,并进行了改进。

改进之后的attention机制如下图所示(绿色向量c的计算):首先基于当前步的decoder输出及之前的encoder每一步的隐层输出计算其相关性,然后基于计算的相关性进行scale和softmax得到最终的注意力系数。

Decoder部分的计算公式如下(蓝色向量C):区别就是计算是基于当前decoder步的输出和之前步的decoder隐层输出计算注意力系数;其余部分均一致。

Token generation的方法

最终基于两种方法进行一种是基于softmax进行;另一种则是基于指针网络进行词的生成;我们通过一个sigmod函数计算使用对应方式的概率:

然后计算不同情况下的得分:分别是softmax的概率分布和指针网络的注意力系数分布(二者维度相同,均为词的个数):

最后计算其概率分布,还需注意的是encoder和decoder使用相同的词向量嵌入:

混合训练函数:

此部分我们介绍加入了强化学习方式的训练方法,传统的监督学习方式的损失函数为最大似然损失:通过最小化下面的损失函数进行训练,相当于最大化真实值的概率;缺点是存在暴露偏差,这是RNN中很常见的问题;

我们通过强化学习减缓暴露偏差的问题,通过强化学习最大化一个特殊的度量值一般为ROUGE-1系数,使用self-critical 的策略梯度下降进行训练。先介绍self-critical策略梯度下降法:每次训练过程,都会生成两个输出序列:ysy;分别通过在每一个decoder解码过程基于条件概率进行随机采样获得和最大化输出概率分布获得(贪心算法的过程);使用ROUGE-1作为奖励函数;损失函数如下:

其计算流程如下:理论上来说通过贪心算法生成的词带来的奖励是远高于随机采样带来的奖励的,所以上式的值为正;万一随机采样的词带来的收益高于贪心的收益,在这个词的维度上收益就是负数,梯度就会下降,词分数就会上升

最终我们混合两部分的损失函数得到:

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章