《 Text Understanding with the Attention Sum Reader Network 》——Attention Sum Reader

  • 作为清华推荐的阅读理解论文的一篇,同时在张俊林大佬的博客里也看到了他的身影,觉得有必要看波论文,学习一下。
  • (Attention Sum Reader)AS Reader可以看作是一维匹配结构的典型示例。
  • 这是一篇IBM 的几位大佬在2016年发表的论文(比较久远了)

摘要

  • We present a new, simple model that uses attention to directly pick the answer from the context as opposed to computing the answer using a blended representation of words in the document as is usual in similar models。
  • 我们提出了一个新的,简单的模型,使用attention机制直接从上下文选择答案,而不是用在相似性models中常见的利用单词的混合表示来计算答案。
    *论文作者说,他们的模型很适合answer是一个来自文档中的单词的question-answering problems,并且在所有的evaluated datasets上达到了 sate of art的效果。

论文行文

  • In the first part of this article we introduce the task at hand and the main aspects of the relevant datasets. Then we present our own model to tackle the problem. Subsequently we compare the model to previously proposed architectures and finally describe the experimental results on the performance of our model。
  • 首先介绍主要任务和数据集,然后叙述自己的模型,接着用自己的模型和已有模型比较,最后叙述自己模型的实验结果。

1. Introduction

  • While predicting prepositions can easily be done using relatively simple models with very little context knowledge, predicting named entities requires a deeper understanding of the context。
  • 论文首先铺垫了一堆东西,大致意思是不同的挖空,question等等会影响模型预测的难度。
  • 预测文章里面的实体比较难,需要对文章有比较深的理解。(解释了为什么qusetion会问答案是entity的问题,前面看过的论文倒是没有解释)
  • Also, as opposed to selecting a random sentence from a text as in (Hill et al., 2015)), the question can be formed from a specific part of the document, such as a short summary or a list of tags.
  • Since such sentences often paraphrase in a condensed form what was said in the text, they are particularly suitable for testing text comprehension (Hermann et al., 2015).
  • 总的来说,就是直接选取文中的句子作为问题,不如以summary的问题去问更能体现出对文章的理解能力。
  • An important property of cloze-style questions is that a large amount of such questions can be automatically generated from real world documents.This opens the task to data-hungry techniques such as deep learning。
  • 论文赞赏了当今可以就完型填空任务生成大量数据,为数据驱动任务任务打开大门。
  • This is an advantage compared to smaller machine understanding datasets like MCTest (Richardson et al., 2013) that have
    only hundreds of training examples and therefore the best performing systems usually rely on handcrafted features (Sachan et al., 2015; Narasimhan and Barzilay, 2015)
  • 小的数据集依赖人工提取特征。

2. Task and datasets

2.1 Task

  • The training data consist of tuples (q; d; a; A),where q is a question, d is a document that contains the answer to question q, A is a set of possible answers and a 2 A is the ground truth answer. Both q and d are sequences of words from vocabulary V . We also assume that all possible answers are words from the vocabulary, that is A ⊆ V , and that the ground truth answer a appears in the document, that is a 2 d.

2.2 Datasets

2.21 News Articles — CNN and Daily Mail

  • github

  • 从新闻里提取出的数据。

Children’s Book Test

  • 从儿童故事书提取出的数据。

Our Model - Attention Sum Reader

  • AS Reader 的答案是一个单词,一方面模型取得了很好的效果,但是模型只能产生文档内的单词。
  • 模型结构图如下:

在这里插入图片描述

  • 参考[1]
    在这里插入图片描述
  • 预测过程类似自动摘要里的pointer-switch,即直接从原文里找答案。step 5 在进行词概率合并时之所以不选择平均,是因为作者在分析了语料后,发现answer在context里的词频普遍较高,这也算一个trick
  • 另外一些trick:

在这里插入图片描述

  • 个人读到这里对比了一下attentive reader的结构:

在这里插入图片描述

  • 感觉基本框架一样,就最后的细节不太一样…这也太…然后就没有读下去的欲望了…

实验效果

  • 分不同数据集合

在这里插入图片描述

在这里插入图片描述

  • [1]模型在CNN/Daily Mail和CBT的Nouns、Named Entity数据集上进行了测试,在当时的情况下都取得了领先的结果。并且得到了一些有趣的结论,比如:在CNN/Daily Mail数据集上,随着document的长度增加,测试的准确率会下降,而在CBT数据集上得到了相反的结论。从中可以看得出,两个数据集有着不同的特征。

简评

  • 来自[1]

(1)本文的模型相比于Attentive Reader和Impatient Reader更加简单,没有那么多繁琐的attention求解过程,只是用了点乘来作为weights,却得到了比Attentive Reader更好的结果,从这里我们看得出,并不是模型越复杂,计算过程越繁琐就效果一定越好,更多的时候可能是简单的东西会有更好的效果。

(2)文中直接利用 attention 机制选择答案,模型就比较偏爱出现次数多的词,这就隐含了出现次数比较多的词作为答案的可能性大的假设,所以从根本上本文是基于task的研究而不是从理论出发的。

在这里插入图片描述

END

  • 本文完

参考

[ 1 ]《Text Understanding with the Attention Sum Reader Network 》学习笔记

[ 2 ]【论文笔记02】Text Understanding with the Attention Sum Reader Network

[ 3 ]代码

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章