元學習gradient descent as LSTM(2)--李宏毅老師課程學習筆記

我們發現meta learning中的結構與RNN比較相似,具體看下面兩篇論文是講這個的。
在這裏插入圖片描述
RNN是用同一個單元去處理很長的句子,因爲每次只吃一個單詞。
在這裏插入圖片描述
現在基本用LSTM,通過結構發現Ct的特殊,同時由於它改變較慢,因此LSTM能夠儲存較長之間之前的詞。
在這裏插入圖片描述
複習一下LSTM:
在這裏插入圖片描述
在這裏插入圖片描述
這個圖和上面的圖進行對比,是LSTM的簡化版。
在這裏插入圖片描述
如果把sita t-1 的loss用來更新zi,那麼可以多樣地調整學習率。

實際的時候,一個LSTM用在所有的參數中。
在這裏插入圖片描述
在這裏插入圖片描述
以前的方法都會用以前的梯度,那我們是不是也能這樣。下面的結構在論文中是沒有的,在learning to learn by gradient descent by gradient descent論文中,有下面的關於保留之前梯度的內容,但是在sita的時候,只是簡單地做了一下更新。
在這裏插入圖片描述
下面看一下實驗結果,看下圖中,因爲minist數據集的話,做meta learning 意義不大。因此train 20個unit test 40個unit 的對比,以及test 2 layer 的對比,效果都很好。但是當train 是sigmoid ,test是relu函數時,效果就差了。
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章