我們發現meta learning中的結構與RNN比較相似,具體看下面兩篇論文是講這個的。
RNN是用同一個單元去處理很長的句子,因爲每次只吃一個單詞。
現在基本用LSTM,通過結構發現Ct的特殊,同時由於它改變較慢,因此LSTM能夠儲存較長之間之前的詞。
複習一下LSTM:
這個圖和上面的圖進行對比,是LSTM的簡化版。
如果把sita t-1 的loss用來更新zi,那麼可以多樣地調整學習率。
實際的時候,一個LSTM用在所有的參數中。
以前的方法都會用以前的梯度,那我們是不是也能這樣。下面的結構在論文中是沒有的,在learning to learn by gradient descent by gradient descent論文中,有下面的關於保留之前梯度的內容,但是在sita的時候,只是簡單地做了一下更新。
下面看一下實驗結果,看下圖中,因爲minist數據集的話,做meta learning 意義不大。因此train 20個unit test 40個unit 的對比,以及test 2 layer 的對比,效果都很好。但是當train 是sigmoid ,test是relu函數時,效果就差了。