【循環網絡】Torch中的rnn

原創

2020-02-25 19:57

本文從零開始，動手玩一玩Nicolas Leonard在Torch框架下提供的rnn庫。這裏以每一個類爲單位，使用簡單的例子進行演練，比作者提供的一系列demo更加好懂。

Recurrent.lua

循環網絡(Recurrent Neural Network)能夠處理與“記憶”有關任務，我們舉一個例子。

系統的輸入爲0或1，輸出也是一個標量。輸出有80%取決於輸入，有20%取決於前一時刻狀態。系統的隱變量也是一個標量。

用公式表達：

h t = 0.8 x t + 0.2 h t - 1

用start指定初始化操作1，input指定針對輸入的操作，feedback指定針對前一刻狀態的操作：

start = nn.Add(1,true)
start.bias[1] = 0
input = nn.Mul()
input.weight[1] = 0.8
feedback = nn.Linear(1,1)   -- 和Mul一樣進行數乘，只是換個形式
feedback.weight[1] = 0.2
feedback.bias:fill(0)

創建一個Recurrent類：

kernel = nn.Recurrent(start, input, feedback,
nn.ReLU(),                  -- 接在最後的非線性變換
99999                       -- 記憶長度，設定得很大，有多少記多少

考察源碼中updateOutput函數，可以發現，Recurrent類用self.initialModule完成第一步的流程，用self.recurrentModule完成其他步驟流程。

傳入一個輸入試試看：

x = torch.DoubleTensor(1)    -- 必須使用torch自己的數據類型
x[1] = 1
y = kernel.forward(x)

y 1 = s i g m o i d (1 \times 0.8 + 0) = 1 / (1 + exp (- 0.8)) = 0.68997

再輸入一個：

y = kernel.forward(torch.DoubleTensor(1):fill(0))

y 2 = s i g m o i d (0.68997 \times 0.2 + 0 \times 0.8) = 0.5344

也可以讓系統忘記之前的輸入：

kernel:forget()

Sequencer.lua

如果想要一次輸入一個序列，可以使用Sequencer來包裝kernel：

seq = nn.Sequencer(kernel)

輸入一個序列，輸出一個序列：

x1 = torch.DoubleTensor(1):fill(1)
x2 = torch.DoubleTensor(1):fill(0)
x3 = torch.DoubleTensor(1):fill(1)
y = seq:forward({x1,x2,x3})
print(y[1],y[2],y[3])

RecurrentAttention.lua

這是相當特化的一個類，專門用於處理包含以下兩個模塊的循環系統
- rnn模塊：是一個Recurrent類。輸入爲一個1*2的table，第一個元素是系統的外部輸入，第二個輸入是action模塊的輸出；輸出爲系統隱狀態。自己會記憶隱狀態。
- action模塊：任意類型。輸入爲前一時刻系統隱狀態，輸出傳遞給rnn模塊。

和普通Recurrent類型比起來，RecurrentAttention在處理隱狀態時，多了一個action模塊，可以針對系統輸入的某一部分進行聚焦。

nn庫中的Add層有些古怪，創建時的第一個參數指定輸入維度，第二個參數scalar是個布爾型，指定是加標量還是加數組。 ↩

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【循環網絡】Torch中的rnn

Recurrent.lua

Sequencer.lua

RecurrentAttention.lua

Android啓動過程-萬字長文(Android14)

這種嵌套字典類型的數據，我想把它讀取到df裏，如何操作？

微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺

iNeuOS工業互聯網操作系統，增加電力IEC104協議

微服務實踐k8s&dapr開發部署實驗（3）訂閱發佈

kbgressdb之數據結構V0.2

【深度學習】A neural algorithm of artistic style算法詳解

【TensorFlow動手玩】數據導入2

【深度學習】聚焦機制DRAM(Deep Recurrent Attention Model)算法詳解

【深度學習】殘差結構：1000層網絡

【教程】曠視的兩個有趣的東西

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結