轉自:http://blog.csdn.net/wangyangzhizhou/article/details/77332582
前面已經詳細講了LSTM神經網絡(文末有鏈接回去),接着往下講講LSTM的一個很流行的變體。
GRU是什麼
GRU即Gated Recurrent Unit。前面說到爲了克服RNN無法很好處理遠距離依賴而提出了LSTM,而GRU則是LSTM的一個變體,當然LSTM還有有很多其他的變體。GRU保持了LSTM的效果同時又使結構更加簡單,所以它也非常流行。
GRU模型
回顧一下LSTM的模型,LSTM的重複網絡模塊的結構很複雜,它實現了三個門計算,即遺忘門、輸入門和輸出門。
而GRU模型如下,它只有兩個門了,分別爲更新門和重置門,即圖中的
GRU向前傳播
根據前面GRU模型圖來一步步看他是怎麼向前傳播的,根據圖不難得到以下式子:
其中[]表示兩個向量相連接,*表示矩陣元素相乘。
GRU的訓練
從前面的公式中可以看到需要學習的參數就是
輸出層的輸入
設某時刻的損失函數爲
與前面LSTM網絡類似,最終可以推出
以下是廣告和相關閱讀
========廣告時間========
公衆號的菜單已分爲“分佈式”、“機器學習”、“深度學習”、“NLP”、“Java深度”、“Java併發核心”、“JDK源碼”、“Tomcat內核”等,可能有一款適合你的胃口。
鄙人的新書《Tomcat內核設計剖析》已經在京東銷售了,有需要的朋友可以購買。感謝各位朋友。
=========================
相關閱讀:
歡迎關注: