Cross Attention Network for Few-shot Classification

作者:一顆檸檬味的橙子
鏈接:https://zhuanlan.zhihu.com/p/105717426
來源:知乎
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。
 

來源:NeurIPS 2019
文章題目:Cross Attention Network for Few-shot Classification
下載地址:https://arxiv.org/abs/1910.07677

本文的主要工作是研究小樣本學習(Few-shot Learning)在圖像分類中的應用。小樣本學習當前比較流行的解決思路就是元學習(meta-learning),元學習從一組任務中訓練元學習器,提取元知識並將其轉化到新任務中。總的來說元學習的方法分爲三個類型:

(1)Optimization-based methods:將元學習器設計爲一個學習更新模型參數的優化器,從而是其他模型學習到一個較好的初始值,從而儘快適應新任務。

(2)Parameter-generating based methods:通常將學習器設計爲參數預測網絡。

(3)Metric-learning based methods:學習一個公共特徵空間,根據距離度量進行分類 。

文中作者使用的是Metric-learning based method。不同於傳統方法:文中首先獨立提取支持集和查詢集的樣本特徵,利用支持集和查詢集特性之間的語義相關性來突出顯示目標對象。此外傳統的注意力模型(例如SENet)只是基於訓練類的先驗來定位測試圖像的重要區域,而不能推廣到未知類的測試圖像。因此本文中設計了一個元學習器來計算支持集和查詢集特徵圖之間的交叉注意力圖,這有助於定位目標對象的重要區域並增強特徵的可識別性。

Cross Attention Module

本文中的小樣本分類任務包含了訓練集(包含了大量的標籤和類別)、【支持集(包含了少量標籤和類別,且與訓練集不相交)和查詢集(無標籤信息,與支持集在同一標籤空間)】。

圖1 Cross Attention Module

圖中綠色表示支持集的特徵,藍色表示查詢集的特徵。如圖本文設計一個Correlation layer去計算支持集和查詢集之間的關聯。其計算方式如下:

上述 [公式] (支持集)表示局部類別特徵向量和所有查詢特徵向量之間的關係, [公式] (查詢集)表示局部查詢特徵向量和所有類別特徵向量之間的關係。

圖1(b),使用Meta fusion layer根據相應的相關映射分別生成類和查詢注意力映射。Meta fusion layer使用一個 核爲[公式][公式] )的卷積操作,本文的加權聚合應該將注意力吸引到目標對象上,而不是簡單地突出顯示支持集和查詢集之間在視覺上相似的區域。

基於上述分析,作者設計了一個元學習器,根據類別特徵和查詢特徵之間的相關性自適應地生成核。元學習的函數表示如下,其中GAP表示爲全局平均池化,

Cross Attention Network

圖2 Cross Attention Network

如圖2所示,Cross Attention Network(CAN)主要包括一個Embedding操作和Cross Attention Module,Embedding主要是用於圖像特徵提取,Cross Attention Module如圖1所示。CAN最後通過一個局部分類器和一個全局分類器組成。局部分類器通過支持集特徵和查詢集特徵之間的餘弦距離,計算兩個特徵之間的相似度從而得到查詢集特徵的概率值。全局分類器通過一個全連接層之後直接通過Softmax進行分類。模型優化過程中通過疊加局部分類器的損失和全局分類器的損失得到最終的損失函數:

blue-blue272/fewshot-CAN

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章