lstm模型

LSTM(Long Short-Term Memory)簡介

由於RNN存在梯度消失的問題,很難處理長序列的數據。
爲了解決RNN存在問題,後續人們對RNN做了改進,得到了RNN的特例LSTM,它可以避免常規RNN的梯度消失,因此在工業界得到了廣泛的應用。
LSTM模型是RNN的變體,它能夠學習長期依賴,允許信息長期存在。

舉個例子來講:比如人們讀文章的時候,人們會根據已經閱讀過的內容來對後面的內容進行理解,不會把之前的東西都丟掉從頭進行思考,對內容的理解是貫穿的。
傳統的神經網絡即RNN做不到這一點,LSTM是具有循環的網絡,解決了信息無法長期存在的問題,在工業界普遍使用有良好的效果。

帶循環的遞歸神經網絡如下
帶循環的遞歸神經網絡

RNN與LSTM之間聯繫

RNN具有如下的結構,每個序列索引位置t都有一個隱藏狀態h(t)。
在這裏插入圖片描述
如果略去每層都有的o(t),L(t),y(t),則RNN的模型可以簡化成如下圖的形式:
在這裏插入圖片描述
圖中可以很清晰看出在隱藏狀態h(t)由x(t)和h(t−1)得到。得到h(t)後一方面用於當前層的模型損失計算,另一方面用於計算下一層的h(t+1)。

爲了避免RNN的梯度消失,LSTM將tanh激活函數轉爲更爲複雜的結構
LSTM的結構如下圖:在這裏插入圖片描述

可以看到LSTM的結構要比RNN的複雜的多,真佩服牛人們怎麼想出來這樣的結構,然後這樣居然就可以解決RNN梯度消失的問題?由於LSTM怎麼可以解決梯度消失是一個比較難講的問題,我也不是很熟悉,這裏就不多說,重點回到LSTM的模型本身。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章