目錄
1. 普通遞推神經網絡(Recurrent Neural Network)的前向傳播公式
2. 門控遞推單元(Gated Recurrent Unit,GRU)的前向傳播公式
3. 長短期記憶單元(Long Short-Term Memory,LSTM)的前向傳播公式
或表示矩陣乘法,表示按元素相乘(學名叫做Hadamard product)。中的表示第t步。表示矩陣有(激活值的維度)行,(輸入值的維度)列。x表示輸入,a表示激活值,c表示隱藏狀態,u表示更新(輸入)門,o表示輸出門,f表示遺忘門。
1. 普通遞推神經網絡(Recurrent Neural Network)的前向傳播公式
下式輸出了激活值。
下式把激活值映射到輸出的概率空間中。
2. 門控遞推單元(Gated Recurrent Unit,GRU)的前向傳播公式
重置門(reset gate)的計算
,代表第步。
候選激活值(candidate activation)的計算
更新門(update gate)的計算
激活值的計算
3. 長短期記憶單元(Long Short-Term Memory,LSTM)的前向傳播公式
下式是遺忘門,用於忘記上一步的隱藏狀態。
這是更新(輸入)門,用於決定保留多少輸入。
這是初步的隱藏狀態,與遺忘門和更新門無關。
這是最終的隱藏狀態,經過遺忘門和更新門的調整。
這是輸出門,用於決定輸出多少隱藏狀態。
這是最終的激活值。
4. 普通遞推神經網絡的反向傳播公式
這是激活值。
這是tanh的求導公式。
下面是對各個參數的偏導。
5. GRU的反向傳播公式
6. LSTM的反向傳播公式
下式中的取中的,類似。
下式中的取中的,類似。