Incremental Few-Shot Learning with Attention Attractor Networks

https://www.jianshu.com/p/fdd4f78bcf0b

 

多倫多大學提出注意式吸引器網絡,實現漸進式少量次學習

引言

通常,機器學習分類器的訓練目標是識別一組預定義的類別,但是很多應用往往需要機器學習能通過有限的數據靈活地學習額外的概念,而且無需在整個訓練集上重新訓練。

這篇論文提出的漸進式少量次學習(incremental few-shot learning)能夠解決這個問題,其中已經訓練好的常規分類網絡能夠識別一組基礎類別,同時也會考慮一些額外的全新類別,包括僅有少量有標註的樣本地一些類別。在學習了全新的類別後,這個模型會在基礎類別與全新類別的整體分類表現上被重新評估。爲此,作者提出了一種元學習模型:注意式吸引器網絡(Attention Attractor Network)。它可以調整對全新類別的學習規範,在每個 episode 中,作者都會訓練一組新的用於識別全新類別的權重,直到它們收斂,而且作者還表明這種循環式反向傳播技術可以在整個優化過程中反向傳播,並能促進對這些參數的學習。研究表明,學習得到的吸引器網絡無需回顧原始的訓練集,就能在記住舊有類別的同時助力對全新類別的識別,其表現也勝過多種基準。

作者在 mini-ImageNet 和 tiered-ImageNet 上進行了實驗,結果表明新提出的方法在漸進式少量次學習方面達到了當前最佳水平。

![image](https://upload-images.jianshu.io/upload_images/11790677-6e55071d9cdd7d34.jpeg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240 "")

圖 1:新提出的用於漸進式少量次學習的注意式吸引器網絡。在預訓練期間,網絡學習基礎類別權重 W_a 和特徵提取器 CNN 骨幹網絡。在元學習階段則是一個少量次學習 episode。

模型

首先,這一節定義了漸進式少量次學習的設置,然後會介紹新提出的模型:注意式吸引器網絡。該模型能通過使用吸引器正則化項,根據少量次訓練數據來實現對基礎類別集的關注。圖 1 給出了該方法的較高水平的模型示意圖。

漸進式少量次學習

實現漸進式少量次學習的元學習方法的大致過程爲:(1)在一個基礎類別集上,學習一組固定的特徵表徵和一個分類器;(2)在每個訓練和測試 episode 中,使用元學習得到的正則化器訓練一個新類別分類器;(3)基於組合到一起的新類別和基礎類別分類數據,對元學習的正則化器進行優化和適應,使其也能在基礎分類器上取得良好的表現。這些階段的詳情如下:

預訓練階段:在基礎類別數據集 D_a 上學習一個常規監督式分類任務的基礎模型。這個階段的目的是學習得到一個優良的基礎分類器和優良的表徵。基礎分類器的參數是在這個階段學習得到的,並會在預訓練之後固定下來。

漸進式少量次 episode:在一個少量次數據集 D_b 上,採樣少量次 episode E。注意這個數據集可能與預訓練數據集 D_a 的數據源相同,但採樣是按 episode 來的。

元學習階段:元訓練階段會迭代式地採樣少量次 episode E 並嘗試學習元參數,使得讓聯合查詢數據集 Q_(a+b) 上的聯合預測損失最小化。作者特別指出他們設計的正則化器 R(·, θ) 能通過最小化損失 l(W_b, S_b)+R(W_b, θ) 來快速學習權重,其中 l(W_b, S_b) 通常是用於少量次分類的交叉熵損失。

基礎類別與全新類別上的聯合預測:現在介紹每個少量次 episode 中執行的聯合預測框架的細節。首先,構建一個 episode 式的分類器,比如一個 logistic 迴歸模型或多層感知器;該模型以所學習到的特徵爲輸入,並根據少量次類別對它們進行分類。在支持集 S_b 上訓練期間,可通過最小化以下正則化的交叉熵目標來學習快速權重,作者將這個目標稱爲「episodic objective」:

image

注意式吸引器網絡

直接學習少量次 episode(比如通過將 R(W_b, θ) 設置爲 0 或簡單的權重延遲)會導致對基礎類別的災難性遺忘。原因是,爲最大化正確的全新類別概率而訓練的 W_b 可能會在聯合預測中支配基礎類別。爲了解決這一問題,作者提出了注意式吸引器網絡。這種吸引器網絡的關鍵特點是正則化項 R(W_b, θ):

image

爲了確保模型在基礎類別上表現良好,吸引器必須包含一些基礎類別樣本的有關信息。由於無法直接讀取這些基礎樣本,作者提出使用慢權重(slow weights)來編碼這樣的信息。具體來說,每個基礎類別都有一個學習後的吸引器向量 U_k,其存儲在內存矩陣 U=[U_1, ..., U_K] 中。

對於支持集中的每個類別,模型都會計算該類別的平均表徵與基礎權重 W_a 之間的餘弦相似度,然後會使用一個 softmax 函數進行歸一化:

image

這種設計的靈感來自 M. C. Mozer 等人提出的吸引器網絡,針對每個基礎類別都會有保存了與該類別有關的相關記憶的一個「吸引器」。作者將他們提出的整個模型稱爲「動態吸引器(dynamic attractor)」,因爲它們可能會隨每個 episode(即使是在元學習之後)而變化。

在元學習期間,θ 會被更新,以最小化查詢集 Q_(a+b)(查詢集包含基礎類別和全新的類別)的預期損失,並求取所有少量次學習 episode 上的平均:

image

實驗

作者在兩個少量次分類數據集 mini-ImageNet 和 tiered-ImageNet 上進行了實驗。這兩個數據集都是 ImageNet 的子集,其圖像大小被減少到了 84×84 像素。作者還對這兩個數據集進行了一些修改,使其滿足漸進式少量次學習的設置。

實驗設置

作者使用的骨幹網絡是一個標準的 ResNet,可通過監督式訓練學習特徵表徵。對於 mini-ImageNet 實驗,作者使用的是一個修改版的 ResNet-10。對於 tiered-ImageNet 則使用了 ResNet-18,但使用分組歸一化(group normalization)層替換了其中所有的分批歸一化(batch normalization)層;原因是由於類別的劃分方式,tiered-ImageNet 從訓練到測試時有較大的分佈轉變。

評估指標

作者考慮了以下評估指標:(1)在單個查詢集和聯合查詢集(Base、Novel 和 Both)上的總體準確度;(2)在基礎類別和全新類別之中分別考慮的由聯合預測導致的表現下降(∆_a 和 ∆_b)。最後,對兩者求平均:∆=1/2(∆_a + ∆_b),得到整體準確度下降的關鍵指標。

比較

作者實現了三種方法,並對它們進行了比較,即 Prototypical Networks(調整到了適用於漸進式少量次學習的設置)、Weights Imprinting 和 Learning without Forgetting。

結果

image

表 2:mini-ImageNet 上 64+5-way 結果;64+5-way 表示基礎類別數爲 64,全新類別數爲 5。∆ 是指在基礎類別和全新類別中的由聯合預測所導致的平均準確度下降(∆=1/2(∆_a + ∆_b));↑ (↓) 表示更高(更低)更好。

image

表 3:tiered-ImageNet 上 200+5-way 結果;200+5-way 表示基礎類別數爲 200,全新類別數爲 5

爲了理解所提出的模型的每個部分的有效性,作者研究了以下變體:基本模型(LR、MLP)、靜態吸引器(+S)和注意式吸引器(+A)。

表 4 和 5 給出了消融實驗的結果。在所有案例中,學習得到的正則化函數都比爲分類器網絡人工設置權重延遲常數的表現更好;不管是聯合預測基礎類別和全新類別,還是相比於單個預測的劣化更低方面都是如此。在 mini-ImageNet 上,新提出的注意式吸引器相比於靜態吸引器優勢明顯。

image

表 4:在 mini-ImageNet 上的消融實驗;+S 表示靜態吸引器,+A 表示注意式吸引器。

image

表 5:在 tiered-ImageNet 上的消融實驗。

如圖 2 所示,T-BPTT 學習到的模型的表現與作者提出的模型相當;但是,當在測試時間解決收斂問題時,T-BPTT 模型的表現會顯著下降。而對 RBP 模型而言,由於支持樣本數量小,完成完整 episode 訓練的速度很快。

image

圖 2:使用 T-BPTT 和 RBP 學習所提出的模型的表現比較。

圖 3 給出了吸引器動態的可視化結果。可以看到,作者提出的吸引器能將快速權重向基礎類別權重推進。相比而言,Gidaris 和 Komodakis 提出的 LwoF(learning without forgetting)方法僅對原型有略微的修改。

image

圖 3:使用 PCA 得到的 5-shot 64+5-way episode 的可視化。左圖:新提出的吸引器模型能學習將原型(較大的有顏色的圈)「推向」基礎類別權重(白圈)。右圖:無遺忘的動態少量次學習。

圖 4 表明,所學習到的正則化器總是優於僅使用權重衰減的基準。由於在骨幹網絡上的表徵更好,基礎類別數量從 50 增至 150 時,整體準確度也在增長。而由於在類別數量爲 200 時分類任務的難度更大,整體準確度有所下降。

image

圖 4:當基礎類別數量爲 {50, 100, 150, 200} 時在 tiered-ImageNet 上的結果。

image

表 6:在 mini-ImageNet 上的常規 5-way 少量次分類結果。注意這是純粹的少量次,沒有基礎類別。

image

表 7:在 mini-ImageNet 上 64+5-way 全消融實驗的結果。

image

表 8:在 tiered-ImageNet 上 200+5-way 全消融實驗的結果。

image

表 9:mini-ImageNet 和 tiered-ImageNet 的數據集劃分情況。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章