論文筆記：Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

原創

2020-06-28 06:51

Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

這篇論文是爲解決natural language processing (NLP)領域的問題。應用RNN encoder-decoder技術進行靜態機器翻譯（英語–>法語 -_-,作爲中國人，我總以爲會轉換成漢語，然而非也）。 encoder and decoder分別爲一個RNN結構，encoder可以將不定長序列轉換成定長序列，decoder的作用與之相反。此外，使用了隱藏節點來增強記憶功能，使訓練更加容易。本文創新點主要就在隱藏節點上，是對LSTM進行的改進，運算速度更快。該方法能夠很好地獲取語義規則，保護語義和語法結構。

看圖就能總體上明白這篇文章要講的是什麼。

主要訓練過程，連接這兩個RNN，使最大似然函數取最大值。這個是可微分的模型，可以使用梯度下降來訓練。這裏講的比較籠統，中間過程略去，只說會得到中間狀態ht−1 ,還根據輸入xt,和上一步輸出yt-1,求得ht,如此循環往復，求得最終的中間狀態c，獲得輸出。

從上面可以看出，其實這篇文章也沒啥，不就是將兩個反向RNN級聯了嘛，這篇文章其實也沒有多麼重要吧。這你就錯了，重要的總是在最後出場。

中間的隱層是本文的亮點GRU。
看結構圖

這個隱藏節點的結構想法來源於LSTM，但是要比LSTM更簡單，更易於實施。

reset gate跟update gate的計算方法一樣：zj=rj=sigma([WrX]j+[Urh(t−1)j])
j代表第幾個隱層，X是input，h(t-1)是上一步的隱層狀態。 WU都是待學習的權重。
接下來就是本步h的更新公式，根據reset gate和update gate而來。

在最後這個公式中，當reset gate關閉爲0時，隱層狀態強制湖綠先前的隱層狀態，並將其重置爲當前輸入。這能夠有效扔掉隱層包含的一些沒用的信息。update gate的功能跟LSTM的記憶門有些類似，能夠控制先前隱層的信息可以傳遞多少到下一步隱層，能夠幫助RNN記憶，這也可以被認爲是一種leaky-integration unit。（:)並不知道這是個什麼單元）
總而言之，這就是隱藏單元的奧祕，包含兩個門，一個reset，一個update。
這個在實驗初期使用時，有一點困難。
所以…
未完待續…

統計機器翻譯
參數優化的最終目的是最大化BLEU score（不知道是啥，下班後查查）

利用RNN encoder-decoder 對詞語對進行評分
將評分後的結果作爲log 線性模型的額外特徵（就是上面那個函數）。
我們在訓練RNN時，忽略了每個詞組對在原本訓練集上的頻率，這有利於，降低大量隨機選擇詞組對的計算量，並且確保RNN模型並非只是簡單的根據詞組出現頻率來對詞組對進行評分。

EMMA
SIAT
2017.03.10

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

論文筆記：Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

Wireshark 安裝+使用（一）

四大卷積網絡發家之路

論文筆記：Is object localization for free?

論文筆記：Grid Long Short-Term Memory

論文筆記：Look and Think Twice

論文筆記：A Global Covariance Descriptor for Nuclear Atypia Scoring in Breast Histopathology Images

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結