未登录词处理优秀论文——Pointing the Unknown Words

原創

2020-02-23 07:09

论文：
《Pointing the Unknown Words》
作者：
Caglar Gulcehre、Sungjin Ahn、Ramesh Nallapati、Bowen Zhou、Yoshua Bengio

这篇论文主要是解决低频词和未出现（在测试集中）词的问题——统称“未登录词问题”。
采用了注意力模型。本文的思想是在遇到未登录词时，不要简单的将其记作：UNK，而是将未登录词分作两种情况：

第一种情况是可以在预设的词表中找到相似的词
第二种情况是可以使用原语句中的某个词进行替代（如下图）

所以根据这样的假设，本文使用了两个softmax层：

一个用于预测原输入语句中某个词的位置，对应于用原语句中的某个词替换，叫做location softmax
另一个用于预测在预定词表中的单词，叫做shortlist softmax

文中提到一般对于未登录词的处理分为三类：

提高softmax的计算速度，使得模型能够拥有更大的词表。相关方法：层次softmax；重要性采样；噪声对比分析等。
缺点：这种方式仅仅扩充了词表，是有助于解决未出现的词的问题，但是它依然存在低频词问题。
充分利用上下文信息。这篇论文使用的也是这个方法。大概的思路就是在输入的原句中找到对应的词的位置并将这个词直接复制到目标句子中。但是之前的论文（Luong et, al, 2015）并没有采用注意力机制，并且使用了固定的分类数目。
将输入单元从单词变为更小的粒度，比如字母或者字节。
缺点：因为输入粒度的降低使得模型需要处理的长度大大提升，会提升训练难度。

论文使用的pointer softmax(PS)模型，具备两个关键的特点：

在每个时间节点上预测是否需要Pointing 机制；
可以根据任意长度的输入进行位置的确定，能够处理输入长度变化较大的场景。

在每个时间点，如果模型选择使用shortlist softmax，则模型将从预设的词库中选择出一个单词w。
如果模型希望从上下文中选择一个词，则模型会输出一个上下文的位置，并且将该位置的词作为需要的词。

所以，这样做的关键是：如何确定什么时候用shortlist sotfmax什么时候用 location softmax？！

为了解决策略的选择问题，论文提出了模型一部分——switching network。

这个网络是用多层感知器组成的，输入为上下文句子，和该时间点之前的隐藏层状态。该转换网路的输出为0/1，代表了location softmax / shortlist softmax。

值得注意的是，当我们需要的词既不在上下文中，也不在预设词库中的时候，模型会默认选择shortlist softmax，并且预测其中的UNK类。
PS的流程图如下：

论文的目标，用最大似然化的思想：

其中，因为这个单词w的来源有两种方式：（1）上下文；（2）预设词库。所以上式可以分解为：

然后用贝叶斯函数可以将其转换为：（此处省略了输入序列x，因为它在所有情况下都是等概率的。）

其中：

所以论文的目标就是在给定的N组（上下文与目标语句对）数据集，然后训练最大似然函数：

在模型的训练过程中，使用到了large-vocabulary trick (Jean et al., 2014) 这个方法是限制了解码器中的softmax的词表为2000, 并且这2000个词是动态变换的，找到每个输入batch的词，和目标词库中最常用的词，将其组合成2000个词。

后面做了几个实验，命名实体识别和翻译，此处略。

点击查看论文模型地址

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

深度学习笔记——pytorch学习01——简单神经网络的练习

1.Le-Net5神經網絡流程回顧 Le-Net5神經網絡模型如下：（圖片來自Yann LeCun的論文）本練習流程如下： 32323→conv1（3655）→28286→relu→maxpool（22）→14146→conv

weixin_43710224

2020-07-02 10:05:19

MLDS18：GAN相关课程学习笔记和代码

Generative Adversarial Network (GAN): 課程主頁目錄 Introduction (2018/05/04) 筆記 Conditional GAN (2018/05/11) 筆記 Unsuper

2020-07-01 23:35:19

生成器与判别器

一張圖瞭解生成器和判別器判別器所執行的任務可以看成是一個自頂向下(從複雜到簡單)的過程，其只需要對於輸入的高維度的數據進行特徵提取得到低維度的判別信息即可，比如分類，檢測等等。而與之相對的則是生成器，其是自底向上(有簡單到複雜

2020-07-01 23:35:19

关于ai学习过程中的一些反思(持续更新)

前景:以下爲打了幾場比賽和初步進入科研的一些反思。 2019.9.9 打比賽和搞學術研究確實有比較大的區別，最大的區別就是打比賽是final metric performance導向型的，而學術研究是以provide innov

2020-07-01 23:35:19

最大似然估计和最大后验概率估计的区别

最大似然估計（MLE） 1.似然函數：L(θ|x)=P(X=x|θ) ①物理意義：某次實驗，θ取不同值時，出現X=x的結果的概率； ②似然函數是參數(θ)的函數； ③似然函數是條件轉移概率。例1：

榆木脑袋徐同学

2020-06-30 15:30:41

深度学习中的网络设计技术(一) ——理论概述

一、網絡設計 (1) 網路設計要點網絡設計考慮重點：1. 精度 2.容量 3. 效率精度：網絡預測樣本的精度（TP / （TP +FP））容量：容納數據量的多少，神經元越多，容量越大。效率：網絡運行的效率，這

2020-06-27 04:24:37

分组卷积和深度可分离卷积

一、分組卷積 (1) ALexNet網絡分組卷積（Group Convolution），最早見於AlexNet網絡，它被用來切分網絡，使其在2個GPU上並行運行，AlexNet網絡結構如下： AlexNet將網絡分成了兩

2020-06-27 04:24:37

残差网络结构及其实现

一、殘差網絡基本結構 (1) 傳統的深度學習遇到的困難梯度消失問題：隨着網絡深度的增加，網絡會出現梯度消失/梯度爆炸的情況，阻礙收斂的過程退化問題：精確率出現飽和的情況是層數的增加引起的，並不是過擬合，表明更深的網絡並未出

2020-06-27 04:24:27

深度学习中的网络设计技术(二)——正则化技术

一、過擬合、欠擬合 1. 什麼是過擬合？什麼是欠擬合？過擬合其實就是在訓練樣本內能夠很好的擬合數據，而在訓練樣本外（沒有參與訓練的樣本）擬合效果很差，這樣的現象就是過擬合。如果你在訓練網絡的過程中發現，模型準確率很高，但是在

2020-06-27 04:24:26

tf.keras.layers.MaxPool2D 学习

pool_size：2個整數的整數或元組/列表：(pool_height,pool_width),用於指定池窗口的大小.可以是單個整數,以指定所有空間維度的相同值. strides：2個整數的整數或元組/列表,用於指定池操作的步幅.可以是

第一段代码

2020-06-26 20:00:52

tf.keras.layers.conv2D 学习

參數描述 inputs 把上一層的輸出作爲輸入(直接將上一層作爲參數輸入即可) input_shape 當作爲模型的第一層時,需要指出輸入的形狀(samples,rows,cols,channels) ,只指出後三維即可,第一維度按ba

第一段代码

2020-06-26 20:00:52

深度学习笔记: ProfilerNotRunningError: Cannot stop profiling. No profiler is running.

ProfilerNotRunningError: Cannot stop profiling. No profiler is running. 前言: 代碼檢查一萬遍,都沒錯,就是來一個ProfilerNotRunningError: C

第一段代码

2020-06-26 20:00:51

深度学习笔记: 深度学习Hello World! MNIST数据集,第一个深度学习流程体验.训练步骤过程分解!

1.導入數據,讀取數據:Datasets 2.構建神經網絡:Model層 3.編譯模型(設置怎麼訓練模式):model.compile 4.訓練模型:model.fit() 5.評估模型準確性:model.evaluate() 6.建議做

第一段代码

2020-06-26 20:00:51

TensorFlow框架This is probably because cuDNN failed to initialize 解决对策整理和验证

Failed to get convolution algorithm. This is probably because cuDNN failed to initialize, so try looking to see if a wa

第一段代码

2020-06-26 20:00:51

深度学习笔记（三）：BatchNorm（BN）层

文章目錄一、背景二、提出三、原理四、計算五、Scale and Shift六、BN層實現學習記錄：深度學習筆記（一）：卷積層+激活函數+池化層+全連接層深度學習筆記（二）：激活函數總結深度學習筆記（三）：Ba

2020-06-25 01:46:26

24小時熱門文章

最新文章

最新評論文章