未登錄詞處理優秀論文——Pointing the Unknown Words

原創

2020-02-23 07:09

論文：
《Pointing the Unknown Words》
作者：
Caglar Gulcehre、Sungjin Ahn、Ramesh Nallapati、Bowen Zhou、Yoshua Bengio

這篇論文主要是解決低頻詞和未出現（在測試集中）詞的問題——統稱“未登錄詞問題”。
採用了注意力模型。本文的思想是在遇到未登錄詞時，不要簡單的將其記作：UNK，而是將未登錄詞分作兩種情況：

第一種情況是可以在預設的詞表中找到相似的詞
第二種情況是可以使用原語句中的某個詞進行替代（如下圖）

所以根據這樣的假設，本文使用了兩個softmax層：

一個用於預測原輸入語句中某個詞的位置，對應於用原語句中的某個詞替換，叫做location softmax
另一個用於預測在預定詞表中的單詞，叫做shortlist softmax

文中提到一般對於未登錄詞的處理分爲三類：

提高softmax的計算速度，使得模型能夠擁有更大的詞表。相關方法：層次softmax；重要性採樣；噪聲對比分析等。
缺點：這種方式僅僅擴充了詞表，是有助於解決未出現的詞的問題，但是它依然存在低頻詞問題。
充分利用上下文信息。這篇論文使用的也是這個方法。大概的思路就是在輸入的原句中找到對應的詞的位置並將這個詞直接複製到目標句子中。但是之前的論文（Luong et, al, 2015）並沒有採用注意力機制，並且使用了固定的分類數目。
將輸入單元從單詞變爲更小的粒度，比如字母或者字節。
缺點：因爲輸入粒度的降低使得模型需要處理的長度大大提升，會提升訓練難度。

論文使用的pointer softmax(PS)模型，具備兩個關鍵的特點：

在每個時間節點上預測是否需要Pointing 機制；
可以根據任意長度的輸入進行位置的確定，能夠處理輸入長度變化較大的場景。

在每個時間點，如果模型選擇使用shortlist softmax，則模型將從預設的詞庫中選擇出一個單詞w。
如果模型希望從上下文中選擇一個詞，則模型會輸出一個上下文的位置，並且將該位置的詞作爲需要的詞。

所以，這樣做的關鍵是：如何確定什麼時候用shortlist sotfmax什麼時候用 location softmax？！

爲了解決策略的選擇問題，論文提出了模型一部分——switching network。

這個網絡是用多層感知器組成的，輸入爲上下文句子，和該時間點之前的隱藏層狀態。該轉換網路的輸出爲0/1，代表了location softmax / shortlist softmax。

值得注意的是，當我們需要的詞既不在上下文中，也不在預設詞庫中的時候，模型會默認選擇shortlist softmax，並且預測其中的UNK類。
PS的流程圖如下：

論文的目標，用最大似然化的思想：

其中，因爲這個單詞w的來源有兩種方式：（1）上下文；（2）預設詞庫。所以上式可以分解爲：

然後用貝葉斯函數可以將其轉換爲：（此處省略了輸入序列x，因爲它在所有情況下都是等概率的。）

其中：

所以論文的目標就是在給定的N組（上下文與目標語句對）數據集，然後訓練最大似然函數：

在模型的訓練過程中，使用到了large-vocabulary trick (Jean et al., 2014) 這個方法是限制瞭解碼器中的softmax的詞表爲2000, 並且這2000個詞是動態變換的，找到每個輸入batch的詞，和目標詞庫中最常用的詞，將其組合成2000個詞。

後面做了幾個實驗，命名實體識別和翻譯，此處略。

點擊查看論文模型地址

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

深度學習筆記——pytorch學習01——簡單神經網絡的練習

1.Le-Net5神經網絡流程回顧 Le-Net5神經網絡模型如下：（圖片來自Yann LeCun的論文）本練習流程如下： 32323→conv1（3655）→28286→relu→maxpool（22）→14146→conv

weixin_43710224

2020-07-02 10:05:19

MLDS18：GAN相關課程學習筆記和代碼

Generative Adversarial Network (GAN): 課程主頁目錄 Introduction (2018/05/04) 筆記 Conditional GAN (2018/05/11) 筆記 Unsuper

2020-07-01 23:35:19

生成器與判別器

一張圖瞭解生成器和判別器判別器所執行的任務可以看成是一個自頂向下(從複雜到簡單)的過程，其只需要對於輸入的高維度的數據進行特徵提取得到低維度的判別信息即可，比如分類，檢測等等。而與之相對的則是生成器，其是自底向上(有簡單到複雜

2020-07-01 23:35:19

關於ai學習過程中的一些反思(持續更新)

前景:以下爲打了幾場比賽和初步進入科研的一些反思。 2019.9.9 打比賽和搞學術研究確實有比較大的區別，最大的區別就是打比賽是final metric performance導向型的，而學術研究是以provide innov

2020-07-01 23:35:19

最大似然估計和最大後驗概率估計的區別

最大似然估計（MLE） 1.似然函數：L(θ|x)=P(X=x|θ) ①物理意義：某次實驗，θ取不同值時，出現X=x的結果的概率； ②似然函數是參數(θ)的函數； ③似然函數是條件轉移概率。例1：

榆木脑袋徐同学

2020-06-30 15:30:41

深度學習中的網絡設計技術(一) ——理論概述

一、網絡設計 (1) 網路設計要點網絡設計考慮重點：1. 精度 2.容量 3. 效率精度：網絡預測樣本的精度（TP / （TP +FP））容量：容納數據量的多少，神經元越多，容量越大。效率：網絡運行的效率，這

2020-06-27 04:24:37

分組卷積和深度可分離卷積

一、分組卷積 (1) ALexNet網絡分組卷積（Group Convolution），最早見於AlexNet網絡，它被用來切分網絡，使其在2個GPU上並行運行，AlexNet網絡結構如下： AlexNet將網絡分成了兩

2020-06-27 04:24:37

殘差網絡結構及其實現

一、殘差網絡基本結構 (1) 傳統的深度學習遇到的困難梯度消失問題：隨着網絡深度的增加，網絡會出現梯度消失/梯度爆炸的情況，阻礙收斂的過程退化問題：精確率出現飽和的情況是層數的增加引起的，並不是過擬合，表明更深的網絡並未出

2020-06-27 04:24:27

深度學習中的網絡設計技術(二)——正則化技術

一、過擬合、欠擬合 1. 什麼是過擬合？什麼是欠擬合？過擬合其實就是在訓練樣本內能夠很好的擬合數據，而在訓練樣本外（沒有參與訓練的樣本）擬合效果很差，這樣的現象就是過擬合。如果你在訓練網絡的過程中發現，模型準確率很高，但是在

2020-06-27 04:24:26

tf.keras.layers.MaxPool2D 學習

pool_size：2個整數的整數或元組/列表：(pool_height,pool_width),用於指定池窗口的大小.可以是單個整數,以指定所有空間維度的相同值. strides：2個整數的整數或元組/列表,用於指定池操作的步幅.可以是

第一段代码

2020-06-26 20:00:52

tf.keras.layers.conv2D 學習

參數描述 inputs 把上一層的輸出作爲輸入(直接將上一層作爲參數輸入即可) input_shape 當作爲模型的第一層時,需要指出輸入的形狀(samples,rows,cols,channels) ,只指出後三維即可,第一維度按ba

第一段代码

2020-06-26 20:00:52

深度學習筆記: ProfilerNotRunningError: Cannot stop profiling. No profiler is running.

ProfilerNotRunningError: Cannot stop profiling. No profiler is running. 前言: 代碼檢查一萬遍,都沒錯,就是來一個ProfilerNotRunningError: C

第一段代码

2020-06-26 20:00:51

深度學習筆記: 深度學習Hello World! MNIST數據集,第一個深度學習流程體驗.訓練步驟過程分解!

1.導入數據,讀取數據:Datasets 2.構建神經網絡:Model層 3.編譯模型(設置怎麼訓練模式):model.compile 4.訓練模型:model.fit() 5.評估模型準確性:model.evaluate() 6.建議做

第一段代码

2020-06-26 20:00:51

TensorFlow框架This is probably because cuDNN failed to initialize 解決對策整理和驗證

Failed to get convolution algorithm. This is probably because cuDNN failed to initialize, so try looking to see if a wa

第一段代码

2020-06-26 20:00:51

深度學習筆記（三）：BatchNorm（BN）層

文章目錄一、背景二、提出三、原理四、計算五、Scale and Shift六、BN層實現學習記錄：深度學習筆記（一）：卷積層+激活函數+池化層+全連接層深度學習筆記（二）：激活函數總結深度學習筆記（三）：Ba

2020-06-25 01:46:26

24小時熱門文章

最新文章

最新評論文章