跨领域迁移的连贯性模型(ACL 2019)

本文为ACL 2019的论文A Cross-Domain Transferable Neural Coherence Model的读后感。

1. 论文主旨

本文主要是面向跨领域的连贯性建模的相关研究。采用的是一个局部判别模型,可以使用更少的负样本来训练识别不正确的句子顺序。实验证明他们采用的方法既简单又能够在WSJ上显著的超过当前最好的方法,在开放域上更是取得了很好的效果。

2. 论文的起点

现有的连贯性模型都是特定领域的,这样会使得模型捕获到的不一定是语义上的连贯,而是结构线索的过拟合。

2.1 本文想要解决的两个问题

  1. 判别模型容易在特定数据集上过拟合。
  2. 判别模型有大量的负样本,但是采样时只采样了一部分,难以覆盖全体。

2.2 本文的基础

  1. 全局的模型是非常重要的。
  2. 长依赖仍然难以解决。
  3. 根据中心理论,全局的最优解也是能够通过局部的最优解不断逼近的。
  4. 想通过找到更加泛化的局部模型来获得更好的全局性能。

3. 论文贡献

  1. 通过一种新的局部判别神经模型,我们纠正了判别模型不能够很好的推广到跨领域的连贯性评分任务。(我个人认为这主要依赖于它的模型的句子编码器和简单的连贯性判别模块,避免了过拟合的存在。)
  2. 提出了一个跨领域的连贯性数据集以及增量式的评估方法(由简单到严格准则)。
  3. 我们的方法在WSJ语料上显著优于其他模型,在开放领域上也是一样。
  4. 即使使用简单的句子编码器,我们的模型也很厉害。

4. 具体做法

4.1 基本假设

全局的连贯性可以由局部的两个句子的连贯性平均得到。

4.2 模型

采用的模型很简单,首先使用句子编码器将句子S和T编码,并将编码后的向量进行一些操作后拼接送入分类器中。
在这里插入图片描述

4.3 一些小技巧

  1. 训练目标是既要保证正例更连贯(接近1),也要保证负例更加不连贯(接近0)。(这种思想很有用)
  2. 改写了损失函数,保证符合训练目标。
  3. 也是用了负采样
  4. 也采用了双向建模(SiS_iSi+1S_{i+1})以及(Si+1S_{i+1}SiS_i),最后取平均。

4.4 实验任务

  1. 判别任务,即判别两个句子是否是连续的两个句子。
  2. 插入任务,判断句子最该插入在一个段落的哪个位置。
  3. 重建任务,将段落中的句子重新排列到正常顺序。

4.5 评估方法

本文在开放域数据集汇总提出了3种评估方法:

  1. Wiki-A。这个方法在同一个领域下7种类别同时进行训练和预测。(同领域训练和预测)
  2. Wiki-C。这个方法在同一领域下6个类别中训练,在另外1个类别下进行预测。(同领域训练和预测,但是类别不同)
  3. Wiki-D。这个方法在一个领域下所有类别中训练,但是在另一个领域上评估。(不同领域训练和预测)

4.6 实验结果

下图中的LCD-G(使用Glove向量取平均)和LCD-I(使用预训练的InferSent)个LCD-I(使用RNN作为语言模型后最大池化其隐藏层)为本文提出的模型。

4.6.1在WSJ上的实验结果

在这里插入图片描述

4.6.2在Wiki上的三个评估方法的结果

在这里插入图片描述
在这里插入图片描述

4.6.3 段落重排任务

在这里插入图片描述

5. 新知识点

  1. 如何判断两个句子是否连贯?
    默认的是如果两个句子是上下句,那么认为是连贯的,否则就是不连贯的。
  2. 衡量连贯性的理论有哪些?
    中心理论(Centering Theory),修辞结构理论(Rhetorical Structure Theory)。
    主要考虑的是局部的实体和词汇的转移,也有话题的转移。
  3. 判断连贯性的模型有哪些?
    主要有判别式模型(discriminative model)和生成式模型(generative model)。其中判别式主要是对于已知句子编码后,再对2个句子进行判别,一般的只能对于已知的句子进行判别。而生成式模型一般使用S2S模型等将两个句子同时编码,从而隐式的包含了两个句子之间的连贯性。这个在Neural Net Models of Open-domain Discourse Coherence中有所讲解。

6. 还有哪些问题?

  1. 本文由于成文较早,没有与现有的流行的预训练模型(如BERT)比较,因为BERT同样有NSP下一个句子预测的任务,而且是做的非常好了,不知道能否应用到此模型中作为编码器使用。
  2. 作者这种模型严格上来讲就是生成式模型和判别式模型的结合,它能够灵活的对句子进行编码,而后用比较简单的判别方法对连贯性进行判别,但是这种方法在封闭域内非常有效的同时,在开放域也特别有效。
  3. 本文的评估内容特别多,在实验安排上稍微有些混乱。比如在后面的Wiki语料库上没有将3个方法都进行评估,而在WSJ上同样只评估了2个任务,个人猜测可能是其性能不够显著。

7. 值得看的引文

8. 常用短语

can efficiently learn against incorrect orderings. 能够有效地学习不正确的顺序。
our new method outperforms previous methods by a significant margin on ...我们的新的方法显著优于之前的模型在…
our method frequently outperforms previous methods 我们的方法经常优于之前的模型。
as we will demonstrate later in the experiments,...正如我们在后面实验中展示的那样…
prohibitively large特别的大
denote X as Y 将X表示成Y

9. 新单词

fluidly 流畅的
plausible 合理的
interchageably 交替使用
vice versa 反之亦然
leverage 利用

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章