論文閱讀筆記《Task-Agnostic Meta-Learning for Few-shot Learning》

核心思想

  本文提出了一種基於任務無偏思想的元學習算法用於解決小樣本學習問題。基於參數優化的元學習算法是小樣本學習領域中的一個重要的分支,如MAML,Meta-LSTM,這一類型的算法試圖通過元學習的方式得到一個較好的初始化模型或者梯度下降的方向,使得模型能夠只利用較少的新樣本,就能實現很好的效果。而作者指出其中潛在的一個問題,就是模型在訓練過程中容易產生對於訓練任務的偏好,而導致泛化能力下降。這一點是很好理解的,無論我們怎樣期待我們得到的初始模型通用性有多好,但畢竟是在一定範圍內的樣本上進行訓練,得到的模型註定會更適用於這部分樣本,而對於新樣本的泛化能力是有限的。作者正是出於這種考慮,希望訓練一種任務無偏的(或者說任務不限的)元學習算法(Task-Agnostic Meta-Learning,TAML)來解決或者緩解上述問題。
  爲解決上述問題,作者提出了兩種方案:基於熵減最大化的TAML和基於最小化不平等性的TAML,下面我們依次介紹兩種方案。
  首先定義fθf_{\theta}是初始化的模型,fθif_{\theta_i}是在任務數據集TiT_i上進行訓練得到的模型,則模型fθf_{\theta}的熵爲
在這裏插入圖片描述
式中y^i,n\hat{y}_{i,n}表示初始模型fθf_{\theta}的預測結果,通常是一個softmax層的輸出。熵越大則表明預測結果隨機性越高,初始模型對於各個類別的樣本沒有任何偏好。但我們不能只簡單的最大化初始模型的熵,還有最小化進過訓練的模型fθif_{\theta_i}的熵HTi(fθi)H_{T_i}(f_{\theta_i})。這就相當於最大化熵減HTi(fθ)HTi(fθi)H_{T_i}(f_{\theta})-H_{T_i}(f_{\theta_i}),將其與元訓練目標結合起來得到以下目標函數
在這裏插入圖片描述
  這個算法過程如下圖所示
在這裏插入圖片描述
  這一方法有效地實現了作者的想法,但存在一個問題,就是隻能針對離散的標記計算熵,而不能滿足一些連續性輸出的任務需求,因此只能針對於分類問題。在此基礎上作者又提出了基於最小化不平等性的方法,這一思想來自於經濟學上的不平等性概念,簡單而言就是每個任務的損失可以看做這個任務的收入,如何保證模型對於每個任務都是無偏的呢?那就需要減少每個任務收入之間的不平等性。實現的過程也非常簡單,最小化下述目標
在這裏插入圖片描述
式中IεI_{\varepsilon }是不平等性的度量方式,作者引入了多種經濟學或信息學中的度量方式,此處不再展開介紹了,感興趣的可以閱讀原文具體瞭解計算方法。該算法的計算過程如下
在這裏插入圖片描述

實現過程

網絡結構

  本文選擇MAML作爲Baseline,因此採用與MAML相同的網絡結構,只是用LeakyReLU取代了ReLU。

損失函數

  如上文所述在原有的損失函數基礎上增加了最大化熵減損失項或者最小化不平等性損失項

訓練策略

  與MAML的訓練模式相同,只是修改了目標函數

算法推廣

  同樣可以推廣到強化學習等連續性輸出的領域

創新點

  • 提出了一種任務無偏的思想,通過引入正則化損失項的方式約束模型在參數更新時,儘可能的對所有任務都不產生偏好
  • 設計了兩種正則化方式:最大化熵減和最小化不平等性

算法評價

  本文算是在MAML算法上的進一步改進,在原有的基礎上通過正則化的方式顯式地要求模型的參數對不同的任務不存在偏好,兩個正則化項的設計也十分簡單,實用。由實驗結果來看,相對於baseline效果也有一定的提高。

如果大家對於深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公衆號“深視”。在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章