GRU神經網絡

GRU神經網絡

原創

2020-02-23 07:44

轉自：http://blog.csdn.net/wangyangzhizhou/article/details/77332582

前面已經詳細講了LSTM神經網絡（文末有鏈接回去），接着往下講講LSTM的一個很流行的變體。

GRU是什麼

GRU即Gated Recurrent Unit。前面說到爲了克服RNN無法很好處理遠距離依賴而提出了LSTM，而GRU則是LSTM的一個變體，當然LSTM還有有很多其他的變體。GRU保持了LSTM的效果同時又使結構更加簡單，所以它也非常流行。

回顧一下LSTM的模型，LSTM的重複網絡模塊的結構很複雜，它實現了三個門計算，即遺忘門、輸入門和輸出門。

而GRU模型如下，它只有兩個門了，分別爲更新門和重置門，即圖中的zt和rt。更新門用於控制前一時刻的狀態信息被帶入到當前狀態中的程度，更新門的值越大說明前一時刻的狀態信息帶入越多。重置門用於控制忽略前一時刻的狀態信息的程度，重置門的值越小說明忽略得越多。

根據前面GRU模型圖來一步步看他是怎麼向前傳播的，根據圖不難得到以下式子：

r t = σ (W r \cdot [h t - 1, x t])

z t = σ (W z \cdot [h t - 1, x t])

h ~ t = tanh (W h ~ \cdot [r t * h t - 1, x t])

h t = (1 - z t) * h t - 1 + z t * h ~ t

y t = σ (W o \cdot h t)

其中[]表示兩個向量相連接，*表示矩陣元素相乘。

從前面的公式中可以看到需要學習的參數就是WrWzWhWo那些權重參數，其中前三個權重都是拼接的，所以在學習時需要分割出來，即

W r = W r x + W r h

W z = W z x + W z h

W h ~ = W h ~ x + W h ~ h

輸出層的輸入yit=Woh，輸出爲yot=σ(yit)。

設某時刻的損失函數爲Et=12(yd−yot)2，則某樣本的損失爲

E=∑Tt=1Et

與前面LSTM網絡類似，最終可以推出

\partial E \partial W o = δ y, t h t

\partial E \partial W z x = δ z, t x t

\partial E \partial W z h = δ z, t h t - 1

\partial E \partial W h ~ x = δ t x t

\partial E \partial W h ~ h = δ t (r t \cdot h t - 1)

\partial E \partial W r x = δ r, t x t

\partial E \partial W r h = δ r, t h t - 1

δ y, t = (y d - y o t) \cdot σ'

δ h, t = δ y, t W o + δ z, t + 1 W z h + δ t + 1 W h ~ h \cdot r t + 1 + δ h, t + 1 W r h + δ h, t + 1 \cdot (1 - z t + 1)

δ z, t = δ t, h \cdot (h ~ t - h t - 1) \cdot σ'

δ t = δ h, t \cdot z t \cdot ϕ'

δ r, t = h t - 1 \cdot [(δ h, t \cdot z t \cdot ϕ') W h ~ h] \cdot σ'

以下是廣告和相關閱讀

========廣告時間========

公衆號的菜單已分爲“分佈式”、“機器學習”、“深度學習”、“NLP”、“Java深度”、“Java併發核心”、“JDK源碼”、“Tomcat內核”等，可能有一款適合你的胃口。

鄙人的新書《Tomcat內核設計剖析》已經在京東銷售了，有需要的朋友可以購買。感謝各位朋友。

=========================