LSTM 和 GRU

在RNN應用,如自然語言處理中,由於輸入語句的長度和語法原因,語句最末尾的內容可能由最開始內容決定,如單複數、時態問題等,兩者之間相隔較遠的距離,導致梯度下降或其他優化算法很難調整參數來影響最開始的位置,這就是神經網絡中常提到的Vanishing Gradients問題。如下例所示:
The cat, which already ate a lot of food, was full.
The cats, which already ate a lot of food, were full.
在以上兩個語句中,末尾的was/were由最開始的cat/cats決定,但是兩者相聚較遠的距離,這就會引起Vanishing Gradients問題,梯度下降算法很難根據was/were處的損失函數,反過來影響最開始位置的權值。我們可以使用GRU或LSTM算法解決這一問題。

GRU

GRU (Gated Recurrent Unit)是解決RNN中長依賴、Vanishing Gradients的有效方法之一,以下是GRU的運算公式:
在這裏插入圖片描述
在這裏插入圖片描述

LSTM

LSTM (Long Short-Term Memory)長短期記憶網絡,也是解決RNN中長依賴、Vanishing Gradients的有效方法之一,以下是LSTM的運算公式
在這裏插入圖片描述

在這裏插入圖片描述
在這裏插入圖片描述

LSTM VS GRU

與GRU相比,LSTM採用兩個開關,這些使LSTM更加複雜、功能更加強大。但是GRU的簡單性,使得其計算性能更高,適用於大型的RNN應用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章