論文筆記:Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation


這篇論文是爲解決natural language processing (NLP)領域的問題。 應用RNN encoder-decoder技術進行靜態機器翻譯(英語–>法語 -_-,作爲中國人,我總以爲會轉換成漢語,然而非也)。 encoder and decoder分別爲一個RNN結構,encoder可以將不定長序列轉換成定長序列,decoder的作用與之相反。此外,使用了隱藏節點來增強記憶功能,使訓練更加容易。本文創新點主要就在隱藏節點上,是對LSTM進行的改進,運算速度更快。該方法能夠很好地獲取語義規則,保護語義和語法結構。

看圖就能總體上明白這篇文章要講的是什麼。
這裏寫圖片描述

主要訓練過程,連接這兩個RNN,使最大似然函數取最大值。這個是可微分的模型,可以使用梯度下降來訓練。這裏講的比較籠統,中間過程略去,只說會得到中間狀態ht1 ,還根據輸入xt,和上一步輸出yt-1,求得ht,如此循環往復,求得最終的中間狀態c,獲得輸出。

從上面可以看出,其實這篇文章也沒啥,不就是將兩個反向RNN級聯了嘛,這篇文章其實也沒有多麼重要吧。這你就錯了,重要的總是在最後出場。

中間的隱層是本文的亮點GRU
看結構圖
這裏寫圖片描述
這個隱藏節點的結構想法來源於LSTM,但是要比LSTM更簡單,更易於實施。

reset gate跟update gate的計算方法一樣:zj=rj=sigma([WrX]j+[Urh(t1)j])
j代表第幾個隱層,X是input,h(t-1)是上一步的隱層狀態。 WU都是待學習的權重。
接下來就是本步h的更新公式,根據reset gate和update gate而來。
這裏寫圖片描述
這裏寫圖片描述
在最後這個公式中,當reset gate關閉爲0時,隱層狀態強制湖綠先前的隱層狀態,並將其重置爲當前輸入。這能夠有效扔掉隱層包含的一些沒用的信息。update gate的功能跟LSTM的記憶門有些類似,能夠控制先前隱層的信息可以傳遞多少到下一步隱層,能夠幫助RNN記憶,這也可以被認爲是一種leaky-integration unit。(:)並不知道這是個什麼單元)
總而言之,這就是隱藏單元的奧祕,包含兩個門,一個reset,一個update。
這個在實驗初期使用時,有一點困難。
所以…
未完待續…

統計機器翻譯
參數優化的最終目的是最大化BLEU score(不知道是啥,下班後查查)
這裏寫圖片描述
利用RNN encoder-decoder 對詞語對進行評分
將評分後的結果作爲log 線性模型的額外特徵(就是上面那個函數)。
我們在訓練RNN時,忽略了每個詞組對在原本訓練集上的頻率,這有利於,降低大量隨機選擇詞組對的計算量,並且確保RNN模型並非只是簡單的根據詞組出現頻率來對詞組對進行評分。


EMMA
SIAT
2017.03.10

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章