LSTM作爲RNN的一種,在計算其參數的時候可能會有一些錯誤的理解。如果對於參數計算過程不理解,那麼對網絡可能也並不是很理解。如圖
上圖是一個簡單RNN的示意圖,爲了方便理解,都會畫成下面的形式
這樣就會造成一些誤解,將RNN理解爲t個不同的模塊,並且錯誤的認爲每個模塊有不同的參數。其實這裏的RNN就只有一個模塊。其餘的是時間線上的展開。LSTM也類似
上圖也是時間線上的展開,不是有三個不同的lstm模塊。所以這些模塊的參數是相同的。
那什麼時候會有多個lstm模塊呢?只有當多層lstm出現的時候纔會有更多的參數出現。
計算可以參考知乎上的一篇回答:https://www.zhihu.com/question/263700757
截圖如下