Adaptive Cross-Modal Few-shot Learning

論文

資料1

基於度量的元學習(metric-based meta-learning)如今已成爲少樣本學習研究過程中被廣泛應用的一個範式。這篇文章提出利用交叉模態信息(cross-modal information)來進一步加強現有的度量元學習分類算法。

在本文中,交叉模態是指視覺和語言的信息;結構定義上來說視覺信息和語義信息有截然不同的特徵空間,然而在識別任務上二者往往能夠相互輔助,某些情況下視覺信息比起語義文字信息更加直觀,也更加豐富,利於分類識別,而另一些情況下則恰恰相反,比如可獲得的視覺信息受限,那麼語義表達自然是能夠提供強大的先驗知識和背景補充來幫助學習提升。

參考少樣本學習時可能會遇到的困難樣本如下圖:左邊示例的每對圖片在視覺信息上非常類似,然而他們實際上歸屬語義相差很大的不同類別,右邊示例的每對圖片視覺信息差異較大,然而所屬的語義類別都是同一個。這兩組例子很好證明了當視覺信息或語義信息之一缺失的情況下,少樣本分類學習由於樣本數目的匱乏,提供到的信息很可能是有噪聲同時偏局部的,很難區分類似的困難樣本。

image

根據如上的場景假設,文章提出一個自適應交叉混合的機制(Adaptive Modality Mixture Mechanism,AM3):針對將要被學習的圖像類別,自適應地結合它存在於視覺和語義上的信息,從而大幅提升少樣本場景下的分類任務性能。具體來說,自適應的 AM3 方法並沒有直接將兩個信息模塊對齊起來然後提供輔助,也沒有通過遷移學習轉化語義信息作爲視覺特徵輔助(類似視覺問答 VQA 任務那樣),而是提出更優的方式爲,在少樣本學習的測試階段獨立地處理兩個知識模塊,同時根據不同場景區分適應性地利用兩個模塊信息。

比如根據圖像所屬的種類,讓 AM3 能夠採用一種自適應的凸結合(adaptive convex combination)方式糅合兩個表徵空間並且調整模型關注側重點,從而完成更精確的少樣本分類任務。對於困難樣本,在上圖左邊不同類別視覺相似度高的情況下,AM3 側重語義信息(Semantic modality)從而獲得泛化的背景知識來區分不同類別;而上圖右邊同類別圖片視覺差距大的情況下,AM3 模型側重於視覺信息(Visual modality)豐富的局部特徵從而更好捕捉同類圖片存在的共性。

在對整個算法有初步印象之後,我們結合 AM3 模型示意圖來觀察更多細節:

image

首先少樣本分類採用的學習方式仍然是 K-way N-shot 的節點學習(episodic training)過程,一方面是來自 N 個類別的 K 張訓練圖片 S 用作支撐集(Support Set),另一方面是來自同樣 N 個類別的測試圖片作爲查詢集 Q(Query Set),並根據分類問題損失定義得到如下參數化的方程爲優化目標:

image

在基礎模型網絡方面,AM3 採用了一個比較簡潔的 Prototypical Network 作爲例子,但也可以延伸到其他網絡使用:利用支撐集爲每個類別計算一個類似於聚類一樣的中心聚點(centroids),之後對應的查詢集樣本只需與每個中心點計算距離就可以得到所屬類別。對於每一個節點 e(episode)都可以根據平均每個類別所屬支撐樣本的嵌入特徵得到嵌入原型 Pc(embedding prototype)以及分佈的函數 p:

image

image

在 AM3 模型裏,爲了如之前說到的更靈活地捕捉語義空間的信息,文章在 Prototypical Network 的基礎上進一步增加了一個預訓練過的詞嵌入模型 W(word embedding),包含了所有類別的標籤詞向量,同時修改了原 Prototypical Network 的類別表徵,改爲同時考慮視覺表達與語義標籤表達的結合。而新模型 AM3 的嵌入原型 P』c 同學習函數,用類似正則項的更新方式得到爲:

其中,math?formula=%5Clamdauploading.4e448015.gif轉存失敗重新上傳取消\lamda是自適應係數,定義爲下式,其中 h 作爲自適應混合函數(adaptive mixing network),令兩個模態混合起來如 Fig 2(a) 所示

image

上式 p(y=c|q,S,Ɵ)是作爲該節點在 N 個類別上由模型學習到的分佈,整體來說是根據查詢樣本 q 的嵌入表達到嵌入原型直接的距離 d,最終做了一個 softmax 操作得到的。距離 d 在文章中簡單地採用了歐氏距離,模型通過梯度下降算法(SGD)最小化學習目標損失 L(Ɵ)的同時,也不停地更新迭代相關參數集合。

基於並不複雜的模型,文章在少樣本數據集 miniImageNet,tieredImageNet 以及零樣本學習數據集上都驗證了自己的方法,均取得了非常好的成績

image

image

總的來看 AM3 這個工作也提出了一個非常有意思的少樣本學習切入點,即多個空間的信息互相補足與制約,AM3 網絡優越性體現在結構的簡潔和理論的完整性,目前該工作的代碼也已經開源,感興趣的讀者可以進一步探索:除了 Prototypical Network 以外,更復雜的網絡以及包含更多的模態信息。

Paper: https://papers.nips.cc/paper/8731-adaptive-cross-modal-few-shot-learning.pdf

Code: https://github.com/ElementAI/am3

資料2

1、introduction
這篇文章提出了一種將語義與視覺知識相結合的自適應的cross-modal。視覺和語義特徵空間根據定義具有不同的結構。對於某些概念,視覺特徵可能比文本特徵更豐富,更具辨別力。但當視覺信息在圖像分類中受到限制時,語義表示(從無監督的文本語料庫中學習)可以提供強大的先驗知識和上下文以幫助學習。此文就是基於此開展研究的,提出了Adaptive Modality Mixture Mechanism(AM3),an approach that adaptively and selectively combines information from two modalities, visual and semantic, for few-shot learning。AM3在基於度量的元學習方法上形成的,通過比較在已學習的度量空間中的距離來實現分類。文章在原型網絡Prototypical Networks for Few-shot Learning的思想基礎上,加入了文本信息(即語義表達)。

2、algorithm

在AM3中,文章增加了基於度量的FSL方法,以結合由詞嵌入模型W學習的語言結構(pre-trained on unsupervised large text corpora),在所有類別中包含了label embeddings。由於考慮到了label embeddings,AM3對每個類修改了原型表達(prototype representation)。有上圖(左)就可以看出AM3將視覺和語義特徵表達的凸組合形成最終的類原型(category prototype),參數化表示爲:

其中:

對於每一個episode(片段)e,類c的嵌入原型(即support set的均值,這裏與原型網絡設計一致)。

few-shot learning分類的訓練是通過在給定的support set來最小化在query set中樣本的預測損失。

訓練時和原始的原型網絡相似,但是這裏距離度量改變了,AM3加入了語義信息,此時d爲query point與cross-modal 原型的距離。上圖(右)現實了AM3的work過程;假設query 樣本q是屬於類別i的,但是在視覺信息上與q最相近的是(a),(b)顯示了每個類的語義原型;在加入了語義嵌入時,AM3修改了原型的位置(c);通過更新,離q最近的原型爲類i。

算法流程爲:

3、experiments
文章分別在miniImageNet、tieredImageNet(few-shot learning)和CUB-200(zero-shot learning)上進行實驗,結果表明AM3性能表現最好,模型簡單且易擴展。實驗中發現在ZSL領域中的方法擴展到基於度量的方法(FSL)性能都提升了。其餘詳細的內容見原文。

總結:

看完整片文章,AM3的亮點就是在原型網絡的基礎上將語義信息與視覺信息相結合,形成一種自適應的模型,即當樣本較少時,此時較小,文本信息佔主要地位,當較大時,視覺信息佔主要地位。
————————————————
版權聲明:本文爲CSDN博主「warm_in_spring」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/warm_in_spring/article/details/98520385

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章