NLP(自然语言处理) - Tricks 集合

前言

这是一篇NLP tricks的集合,在自然语言处理的模型中,有很多优化模型效果的技巧,其中很多技巧已经称为默认设置,不再文章中额外说明。这里持续更新一些方法作为记录。

Weight Average

Weight Average是一种自动集成方式,指的是在最终进行模型测试前,取前面每个checkpoint模型权重的平均值作为最终的测试模型。

Adaptive Embedding

Adaptive embedding 是一种自适应词频的词嵌构建方法,通常用于词表较大的数据集(PTB这种小集就不用了)。这种方法的出发点是词频越高的词往往越容易出现一词多义的现象,同时其本身的含义也越丰富。
同时伴随的一般是一组Cut-off值,这个值将词频分为了几个区间,比如[300000, 60000, 2000]。这时,在不同区间的词有不一样大小的词嵌矩阵。对任意一个词进行词嵌操作,会首先根据不同词频映射为不同大小的词嵌向量,再通过线性映射,统一投影为规定维度大小。如下图所示:
在这里插入图片描述
高频词Thelittle通过高频词表转化为维度为d的词向量,而低频词dog转化为维度为dkn1\frac{d}{k^{n-1}}的词向量,而后再将这些向量映射到d维的向量作为输入的token。

Variational Dropout

依据AWD-LSTM给出的解释,Variational Dropout不同于标准的Dropout,在每层,每次传递信息时使用Dropout都会随机生成一个Dropout mask。Variational Dropout会在第一次执行时就确定一个固定的Dropout mask。这个mask只会在下一个mini-batch时改变。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章