自然語言處理模型之GRU和LSTM網絡模型總結

前文中小修爲大家介紹了自然語言模型中LSTM (Long Short-Term Memory)網絡的性質,相對於遞歸神經網絡,LSTM網絡能夠避因爲梯度彌散而帶來的長時間的信息丟失的問題。這裏小修爲大家介紹一種在LSTM基礎上提出的GRU網絡模型。LSTM和GRU (Gated Recurrent Unit)是在處理自然語言中非常流行的兩種網絡模型,小修根據最近幾年的關於這方面的研究介紹一下兩種模型的優劣對比。在介紹之前,我們先回顧一下LSTM模型,之後再介紹GRU模型。


1. LSTM模型


LSTM模型又稱爲長短期記憶網絡,其網絡的結構如下圖所示:

對於LSTM模型,有三個非常重要的門,分別時輸入門,遺忘門以及輸出門。其中輸入門和遺忘門的表達式爲:

其中f表示的遺忘門,i表示的記憶門。而對於記憶細胞狀態的c的更新表達式爲:


其中新的c的中間狀態爲:

輸出門的表達式爲:

其中隱藏層ht的更新公式爲:

其中xt表示的是t時刻網絡的輸入數據,ht表示的隱藏層神經元的激活函數,c是一個記憶單元,U和W都是LSTM模型的參數,或者稱爲權值矩陣,激活函數使用的是sigmoid函數。裏面的具體的每個門的含義大家可以翻閱之前小修對LSTM的介紹文章。


RNN網絡在每一個遞歸時間都會對網絡中的信息進行改寫,而LSTM最核心的思想是能夠通過不同的門來實現決定是否保留網絡中存在的信息,並且當網絡探測到輸入序列中存在非常重要的的特徵,能夠通過細胞狀態的記憶,一直保留很長的時間。


2. GRU網絡模型


GRU網絡要比LSTM網絡簡單,它將忘記門和輸入門合成一個單一的跟新門,同時還混合了細胞狀態和隱藏狀態,雖然只比LSTM少一個門的計算,但是在訓練的數據量很大的時候,GRU能節省很多的時間。如下圖所示:

在GRU模型中隱藏層的狀態的更新由以下方程決定:

其中z和h中間狀態的跟新由下列表達式決定:

在GRU模型中重置門的更新公式爲:

其參數和之前LSTM模型中的參數基本一致。


3. GRU網絡和LSTM網絡模型對比


Bengio等人,對比了LSTM和GRU兩種網絡模型在處理音樂音頻學習的效率,並且和傳統的只有tanh激活函數的RNN網絡進行了對比,如下圖所示:

可以發現LSTM和GRU的差別並不是很大,在有些方面GRU要比LSTM 模型性能要好一些,但是都比tanh網絡模型明顯要好很多(表格中越小越要性能越好),不過在對LSTM和GRU的選擇方面還是需要根據相應的任務和數據量來進行選擇。

不過在收斂的時間和需要訓練的數據量上,GRU要更勝一籌,畢竟需要訓練的參數要少。



參考內容:

[1] Cho, et al. Learning phrase representation using RNN encoder-decoder for statistical machine translation. 2014

[2] Bengio, et al. A neural probabilistic language model, 2003

[3] Bengio, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling.


原文來自於微信公衆號:自然語言處理技術,

歡迎關注公衆號學習交流


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章