【论文笔记】AS Reader vs Stanford Attentive Reader

原創

changreal

2020-02-21 05:55

Attention Sum Reader Network

数据集

CNN&DailyMail

每篇文章作为一个文档（document），在文档的summary中剔除一个实体类单词，并作为问题（question），剔除的实体类单词即作为答案（answer），该文档中所有的实体类单词均可为候选答案（candidate answers）。其中每个样本将文本中所有的命名实体用类似“@entity1”替代，并随机打乱表示。

儿童故事（Children’s Book Test，CBT）

从每一个儿童故事中提取20个连续的句子作为文档（document），第21个句子作为问题（question），并从中剔除一个实体类单词作为答案（answer）。

模型简介

与Attentive Reader十分类似，是一种一维匹配模型（Stanford Attentive Reader也是），主要是在最后的 Answer 判断应用了一种 Pointer Sum Attention 机制，模型结构如下图所示：

模型具体

probability si is that the answer to query q appears at position i in the document d.

与Attentive Reader比较：

Attention层应用的是 Dot Attention，相对于 Attentive Reader 参数更少，即注意力权重
一维匹配模型的注意力分数等效于直接文档 d 中每个词在特定问题上下文向量中作为答案的概率，该模型的做法就是，在得到每个词Softmax归一化之后的分数后，将同类型的词的分数累加，得分最高的词即为答案（即作者提到的Pointer Sum Attention）

该模型的结构以及Attention的求解过程明显比 Attentive Reader 更简单，却取得了更好的效果

Pointer Sum Attention也显示出，如果一个词出现频率越高，则越有可能成为问题的答案（因为累加的注意力分数越多），实验数据表明这样的假设是合理的，毕竟这也符合大多数的阅读理解规律。

实验设置

优化函数：Adam
学习率：0.001、0.0005
损失函数：-logP(a|q, d)
embedding层权重矩阵初始化范围：[-0.1, 0.1]
GRU网络中的权值初始化：随机正交矩阵
GRU网络中的偏置初始化：0
batch size：32

实验结果

下图展示了模型对比实验结果。

其他相关

这里的pointer sum attention，使用attention as a pointer over discrete tokens in the context document and then they directly sum the word’s attention across all the occurrences.

候选答案词在文档中出现的地方softmax结果累加。

这与seq2seq的attention的使用不同（blend words from the context into an answer representations），这里的attention的使用受到了Pointer Networks(Ptr-Nets)的启发

Attentive and Impatient Readers

比较了与Attentive Reader的区别；

提到了Chen et.al

提到了Memory Networks——MemNNs

Standford Attentive Reader

论文：

A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task

参考1：https://www.imooc.com/article/28801

参考2：https://www.cnblogs.com/sandwichnlp/p/11811396.html#model-2-attentive-sum-reader

源码：https://github.com/danqi/rc-cnn-dailymail

源码解析：http://www.imooc.com/article/29397

效果：比ASReader 和 Attentive Reader效果好

模型介绍

深度学习神经网络在MRC
boosted决策树森林的MRC

数据集：CNN&DailyMail

基于boosted决策树森林的机器阅读理解模型

特征工程来构建实体类单词e的特征向量f_p,q(e ）, 特征有：是否出现、出现位置、词频、n-gram匹配特征、词距特征、依存句法特征、句共现特征等

将机器阅读理解看成是一个排序问题，并使用RankLib包的LambdaMART来构建boosted决策树森林模型。

基于深度学习的模型：Stanford Attentive Reader

Encoding层

Stanford Attentive Reader模型与ASReader模型encoding步骤基本一致：document和question的encoding基本一致

Attention层

不同ASReader模型的求点积，Stanford Attentive Reader使用了双线性函数作为匹配函数。然后累加相同词在不同文章不同位置的相似度。双线性函数可以计算q和p_i之间的相似性，比用点积更灵活。

在Attention层中，匹配函数有所不同，说明在CNN&Dailymail数据集上的机器阅读理解模型在这个时候模型基本无太大差异，重要的研究点在于匹配函数。

记录一下其与 Attentive Reader 不一样的部分：

3.1 实验设置

优化函数：SGD

词向量维度：100（使用预训练好的100维glove词向量）

学习率：0.1

损失函数：-logP(a|q, d)

GRU网络中的权值初始化：满足高斯分布N(0, 0.1)

隐藏层大小h：CNN(128)，Dailymail(256)

Attention层权重矩阵初始化范围：[-0.01, 0.01]

batch size：32

dropout：0.2

changreal

发布了60 篇原创文章 · 获赞 13 · 访问量 3万+

私信关注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【论文笔记】AS Reader vs Stanford Attentive Reader

Attention Sum Reader Network

数据集

模型具体

其他相关

Standford Attentive Reader

开源高性能结构化日志模块NanoLog

杭州的 IT 崩盘了么？

【简写Mybatis-02】注册机的实现以及SqlSession处理

手绘二维码

.NET借助虚拟网卡实现一个简单异地组网工具

【論文筆記】Attention總結二：Attention本質思想 + Hard/Soft/Global/Local形式Attention

【讀書筆記】《深度學習入門——基於python的理論與實現》

【論文筆記】MRC綜述論文+神經閱讀理解與超越基礎部分總結

【兼容調試】AttributeError: 'NoneType' object has no attribute 'loader'

【論文筆記】ULMFiT——Universal Language Model Fine-tuning for Text Classification

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結