【論文翻譯】

寫給自己看的,保存一下。

gedit寫的,後面有時間再改吧。

1.輸入Embedding層
        我們採用常規的技術,通過連接單詞的單詞嵌入和字符嵌入,來獲取每個單詞的嵌入。詞嵌入在訓練中是固定的(is fixed),用p1=300維的預訓練GloVe詞向量來初始化。所有的不在詞典中的單詞都被映射到一個<UNK>標記,這個標記的嵌入是隨機初始化的並且是可訓練的。字符嵌入是這樣獲得的:每個字符被表示成爲一個p2=200維的可訓練向量,也就是每個單詞可以看作是每個它的字符的嵌入向量的連接。每個單詞的長度都增加或者刪減到16(truncated or padded to 16)我們選取這個矩陣的每行中的最大值來獲得一個固定大小的單詞的向量表示。最終,一個給定單詞x在這一層的輸出是連接[Xw;Xc],其中Xw和Xc是單詞X的嵌入和字符嵌入的卷積輸出。得力於Seo et
al,我們在這個表示之上也採取了一個兩層的高速網絡。爲了保持簡潔性,我們也用"x"來表示這一層的輸出。
2.  嵌入編碼層
        編碼層是如下基本構件的集合:【卷基層 X # +注意力層 +前饋層】,如圖1右所示。我們用深度可分離卷積結構而不是傳統的結構,因爲我們發現它is momory efficient並且有更好的generalization。kernel的大小爲7,過濾器數量爲d=128而且一個block中的conv layers是4. 對於注意力層,我們採用了nulti-head mechanism(Vaswani et al,2017a),它對query的輸入的每一個位置都計算了一個所有位置的權重和,或者對於keys,在基於query和key的相似度的輸入上(相似度是兩者的點積)。在整個(編碼)層中heads的數量是8,這些基本的操作(卷積、注意力、前饋)都被放在了一個殘差塊裏(residu block),如圖1右下所示。對於一個輸入x和一個操作f,輸出是f(layernorm(x))+x,也就是每一塊中從輸入到輸出有一個恆等路徑,其中layernorm是指(Ba et al,2016)提出的層歸一化(layer-normalization)。編碼塊的總數量爲1。需要注意對每一個單詞來說這層的輸入是一個p1+p2=500維的向量,這會通過一維卷積被立即mapped到d=128。這一層的輸出也是d=128.
3. 文本-問題 注意力層
        這個模型是標準的,幾乎在每一個先前的閱讀理解模型中都是類似的,如Weissenborn et al(2017)和Chen et al(2017)。我們用C和Q來表示編碼後的文本和問題。context-to-query attention是遮掩被搭建的:我們首先計算每一對文本和問題單詞的相似度,其後表示成爲一個相似度矩陣S nm。然後我們採用softmax函數對S的每一行進行歸一化,得到矩陣S'。然後context-toquery attention這樣計算:A=S'點乘Qt (nxd)。在這裏用的相似度函數是三線性函數(Seo et al,2016): f(q,c)=W0[q,c,q(特殊符號)c] 其中這個特殊符號是數組元素依次相乘,W0是可訓練的變量。
大多數好的模型都保持傳統地用一些query-to-query的方式,比如BiDaF(Seo et al 2016)和DCN(xiong et al 2016)。從經驗上講,我們發現,DCN attention相比於簡單地採用context-to-query可以提供一小點的好處,所以我們採用了這個策略。更具體的來說,我們用softmax函數計算了矩陣S的列歸一化矩陣S'',query-to-context attention是B=S'點乘S''t點乘Ct
4. 模型編碼層
        與seo et al.(2016)相似,在每一個位置這一層的輸入是[c,a,c(特殊符號)a,c(特殊符號)b],其中a和b分別是attention矩陣A和B中的一行。層的參數與嵌入編碼層相同,除了每一塊的卷積層的個數是2,總的塊數是7以外。模型編碼層的3個重複模塊有相同的權重。
5.輸出層
        這一層是功能性的。每一個SQuAD的樣例在包含着答案的文本中都用一個span來做標記。我們採取Seo et al(2016)來預測每一個位置是答案span的起始點和終止點的概率。更具體地說,起始點和終止點的概率被建模爲: p1=softmax(W1[M0;M1]),  p2=softmax(W2[M0;M2]),   其中W1和W2是兩個可訓練的變量,M0 M1 M2分別是從下到上3個模型編碼器(mode encoders)的輸出。一個span的得分是起始點概率和終止點概率的乘積。最終,目標函數被定義爲起始點和終止點下標的預測分佈的log probabilities的negative sum,在所有訓練樣例中求均值:(公式太複雜)
其中 yi1和yi2分別是樣例i的標定好的真實的起始和終止位置,theta包含了所有的可訓練的變量。所推薦的模型可以通過改變輸出層來被修改爲其他理解工作,比如從候選答案中選擇。

推論:在推斷階段,預測的span(s,e)被選擇當且僅當ps1pe2是最大化的而且s<=e。標準動態規劃可以在線性時間內得到結果。

B=SSTCT

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章