論文閱讀筆記《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks Chelsea》

核心思想

  本文提出一種頗具野心的元學習算法用於解決小樣本學習任務,題目中涵蓋了三個關鍵詞Model-Agnostic——無模型限制的,即該算法可以應用於多種類型的網絡模型和任務類型;Meta-Learning——元學習,即該算法不是學習得到一種具體的模型,而是學習如何進行學習(learn to learn);Fast Adaptation——快速適應,即該算法能夠在少量樣本,有限迭代次數條件下快速適應新的任務。文章首先明確了元學習的任務目標——從少量的新數據中快速學習一個新的任務,並且訓練得到的模型能夠學習大量不同的任務。如何實現這一目標呢?作者提出一種思想,存在一些內在的特徵是適用於許多任務的,而基於這些特徵再進一步根據任務細化一下,就能夠很快的適用於某個特定任務。出於這一想法,作者提出一種元學習的方法,首先訓練網絡具備一些共有特徵提取的能力,在此基礎上在進一步訓練網絡具備快速適應新任務的能力,即學習得到一個具備較高敏感度的參數初始化狀態,只需要局部的小幅度變化就能因其損失的快速下降。
在這裏插入圖片描述

  那麼作者具體是如何實現的呢?與其他元學習算法一樣,作者引入了任務Task的概念,一個Task中包含訓練集和測試集,而所有的任務都是從一個任務分佈p(T)p(T)中採樣得到的。整個學習過程包含兩個層次,第一個層次,從p(T)p(T)中採樣得到多個任務TiT_i,並在任務的訓練集上訓練網絡得到權重參數θ\theta',使其具備共同特徵的提取能力。第二個層次,在各個任務的測試集上計算損失,並進一步優化參數使得測試集上的損失之和最小化,得到參數θ\theta,使其對新任務具備高度敏感性,能在少量學習過程中快速適應。第一個層次的測試集其實就是第二個層次的訓練集。經過這樣的訓練之後,獲得了一個具備較高敏感度的參數初始化狀態(如圖中黑色實心點處),在測試時只需要讓其學習少量的樣本,進行少量的迭代微調(有時甚至只需一步迭代)就能實現較好的效果(根據任務需要到達圖中θi\theta_i^*處),哪怕這個測試的樣本是之前訓練過程中從未出現過的。例如在一個只包含貓科動物的數據集中進行訓練,將訓練得到的網絡在包含少量樣本的犬科動物數據集上進行微調訓練,就能快速具備識別犬科動物的能力。

實現過程

網絡結構

  該算法是不限制模型的,可應用於分類、迴歸甚至強化學習等多種任務,因此只需要根據任務要求選擇合適的網絡結構即可。

損失函數

  如上文所述,損失函數根據任務要求調整,一般而言對於分類任務採用交叉熵損失函數,對於迴歸任務採用均方誤差損失,對於強化學習任務採用累計回報期望的負值作爲損失。

訓練策略

  如上文所述,訓練過程包含兩個層次,首先在隨機初始化θ\theta的條件下,對多個任務的訓練集進行多次迭代得到θ\theta',然後在測試集上計算損失,並利用該損失進一步更新參數θ\theta,再在更新後的θ\theta條件下重複上述訓練過程。兩個層次的訓練均採用SGD方法進行優化,計算過程如下
在這裏插入圖片描述
在這裏插入圖片描述

其中α\alphaβ\beta分別是兩層訓練的學習率,其中α\alpha可以作爲超參數,也可以作爲元學習的參數之一,通過訓練獲得;而β\beta只能作爲超參數,利用驗證集通過調參確定。

網絡推廣

  該算法其實是提出一種元學習方法的框架,任何類型的網絡模型都可以應用該框架進行訓練,因此具備強大遷移應用能力,這也是該文章的野心所在。

創新點

  • 提出一種全新的元學習方法,通過訓練獲得一種具備較高敏感度的參數初始化狀態,在此基礎上經過少量樣本的調優訓練即可獲得完成新任務的能力
  • 將分類、迴歸、強化學習等多種模型統一在一個框架下,拓寬了小樣本學習的研究邊界

算法評價

  初讀此文時並沒有感覺到有什麼特別之處,甚至覺得作者在誇誇其談。但在閱讀了許多人對該文的解讀,並在此精讀此文時,才明白作者的野心所在。其並不侷限於設計某個模型,甚至不侷限於某個任務,而是希望提出一種寬泛的元學習框架使其可以解決任何的小樣本學習任務。其提出的通過元學習獲得一種具備較高敏感度的參數初始化狀態的思想也是非常具有創新性和突破性的,實驗結果也表明該方法在多個任務中都取得了優異的表現。作者還對兩個層次網絡訓練過程中損失傳遞問題做了一定的探究,之前在《Optimization as A Model for Few-shot Learning》這篇文章中,採用了損失獨立的方式,第二個層次網絡的損失不會傳遞到第一層次中,而在本文中作者通過實驗用一階導數近似二階導數並不會對結果產生明顯的影響(可能是因爲ReLU的二階導數幾乎處處爲0),卻能夠明顯提高計算速度。

如果大家對於深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公衆號“深視”。在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章