RNN標準模型及其變種

1.概念:RNN又名循環神經網絡,是一類處理序列數據的神經網絡,這個序列數據不只包括時間序列,還有文字序列等,即序列數據中後面的數據與前面的數據有關係

2.結構:

如上圖所示,左邊爲RNN摺疊圖,右邊爲展開圖。與基礎的神經網絡相比,RNN的不同之處在於在隱層之間的神經元之間也建立了權連接,隨着序列的不斷推進,隱層的前部將會通過W權連接影響到後部。

3.特點

(1)能夠處理序列化數據,隱層神經元之間也有權連接

(2)權值共享,輸入層,隱層,輸出層的權值在不同序列中都相同

(3)每一個輸入值只與它本身的那條線路建立權連接,不與別的神經元連接

4.其他RNN結構

除了上述標準的RNN結構之外,在實際中需要採用標準結構的變體來解決問題

(1)如果輸入爲一串文字,輸出爲分類類別,也就是多輸入對單輸出的問題,可以採用如下結構

(2)同樣,有時會碰到單輸入與多輸出的問題,採用如下結構

(3)若輸入爲序列,但不隨時間變化,可採用如下結構

(4)原始的N vs N RNN要求輸入序列等長,然而有時我們遇到的大部分問題中序列不是等長的,如在機器翻譯中源語言與目標語言的句子往往並沒有相同的長度,這時可採用N vs M 模型,這種結構又叫Encoder-Decoder 模型,也稱Seq2Seq模型

顧名思義,這個結構的原理是先編碼再解碼,左側的RNN用來編碼得到c,再用右側的RNN進行解碼。

得到c有多種方式,最簡單的方法就是把Encoder的最後一個隱狀態賦值給c,還可以對最後的隱狀態做一個變換得到c,也可以對所有的隱狀態做變換

(5)輸出循環型:將輸出作爲循環連接,由於時間步的解耦,可以並行訓練,使用導師驅動過程訓練,下圖訓練時標記y作爲循環連接輸入,測試時使用輸出o作爲循環連接輸入

(6)有向圖型,沒有x輸入,只有y序列

(7)上下文型

上圖主要用於圖注,也就是x爲圖像,y爲詞序。通過輸入圖像x產生輸出詞序列

在標準結構中,添加一個標記到隱層的鏈接,表明在給定x的序列後相同長度y序列上的分佈建模

(9)雙向型

時間t的輸出不僅依賴過去信息ht,還依賴未來相關的信息gt。常用於手寫識別與語音識別

(10)遞歸型

不再構造成RNN的鏈狀結構,而是樹的深層結構,一定程度避免長期依賴問題,對於固定長度L的序列,將深度由L變爲logL,可用於學習推論

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章