Motivation:
基于转移的依存句法分析方法在保证分析效率的同时也能达到满意的准确率。和人工构造特征的方法相比,陈丹琪等人(Chen)使用神经网络和贪心算法构造了基于转移的依存句法解析器。其效果虽优于人工方法但仍没有达到state-of-the-art。因此本论文对Chen提出的模型进行了一些改进,在模型的输出部分添加了感知机层,同时使用大量的无监督数据,结果取得了最高的准确率。
模型结构:
模型的总体结构如下图所示,可以发现其实是在Chen模型的基础上多添加了一个隐藏层和感知机层。 Chen模型的最后一层直接使用Softmax输出每一个操作概率,而这篇文章将Softmax输出和前面两个隐藏层的输出连接起来作为感知基层的输入。给出的解释是能利用神经网络更多的信息。
本文的模型结构
Chen的模型
利用无监督数据:
本文的创新点在于:为了提高模型的效果,本文在使用预训练词向量的同时,对于未登录词的初始化采用和预训练词向量相同的分布。然而获取更多的训练数据往往比一个好的初始化更重要,本文采用“tri-train”将解析器生成的auto数据作为gold数据。具体做法为:用两个解析器对同一个句子进行处理,如果两个解析器生成的依存树一样,就把这个句子作为gold数据。实验发现,通过“tri-train”往往能提高1%的准确率。
实验步骤:
这篇论文实际就是进行大量的消融实验,主要包括:
- 隐藏层是1层还是2层;
- 是否使用“tri-train”处理无监督数据;
- 是否使用预训练的词向量;
- Beam search和贪心算法确定输出序列;
- 单词,词性和标签的嵌入维度;
- Beam-size的大小(B=1,8,16,32)。
实验结果:
图片太多,参考论文https://arxiv.org/pdf/1506.06158.pdf
启发:
- 创新不够的话就疯狂堆数据;
- 进行消融实验研究不同配置下模型的效果,为下一步实验指明方向。