Cross Attention Network for Few-shot Classification

原創

2020-06-28 22:43

作者：一顆檸檬味的橙子
鏈接：https://zhuanlan.zhihu.com/p/105717426
來源：知乎
著作權歸作者所有。商業轉載請聯繫作者獲得授權，非商業轉載請註明出處。

來源：NeurIPS 2019
文章題目：Cross Attention Network for Few-shot Classification
下載地址：https://arxiv.org/abs/1910.07677

本文的主要工作是研究小樣本學習（Few-shot Learning）在圖像分類中的應用。小樣本學習當前比較流行的解決思路就是元學習（meta-learning），元學習從一組任務中訓練元學習器，提取元知識並將其轉化到新任務中。總的來說元學習的方法分爲三個類型：

（1）Optimization-based methods：將元學習器設計爲一個學習更新模型參數的優化器，從而是其他模型學習到一個較好的初始值，從而儘快適應新任務。

（2）Parameter-generating based methods：通常將學習器設計爲參數預測網絡。

（3）Metric-learning based methods：學習一個公共特徵空間，根據距離度量進行分類。

文中作者使用的是Metric-learning based method。不同於傳統方法：文中首先獨立提取支持集和查詢集的樣本特徵，利用支持集和查詢集特性之間的語義相關性來突出顯示目標對象。此外傳統的注意力模型（例如SENet）只是基於訓練類的先驗來定位測試圖像的重要區域，而不能推廣到未知類的測試圖像。因此本文中設計了一個元學習器來計算支持集和查詢集特徵圖之間的交叉注意力圖，這有助於定位目標對象的重要區域並增強特徵的可識別性。

Cross Attention Module

本文中的小樣本分類任務包含了訓練集（包含了大量的標籤和類別）、【支持集（包含了少量標籤和類別，且與訓練集不相交）和查詢集（無標籤信息，與支持集在同一標籤空間）】。

圖1 Cross Attention Module

圖中綠色表示支持集的特徵，藍色表示查詢集的特徵。如圖本文設計一個Correlation layer去計算支持集和查詢集之間的關聯。其計算方式如下：

上述（支持集）表示局部類別特徵向量和所有查詢特徵向量之間的關係，（查詢集）表示局部查詢特徵向量和所有類別特徵向量之間的關係。

圖1（b），使用Meta fusion layer根據相應的相關映射分別生成類和查詢注意力映射。Meta fusion layer使用一個核爲（）的卷積操作，本文的加權聚合應該將注意力吸引到目標對象上，而不是簡單地突出顯示支持集和查詢集之間在視覺上相似的區域。

基於上述分析，作者設計了一個元學習器，根據類別特徵和查詢特徵之間的相關性自適應地生成核。元學習的函數表示如下，其中GAP表示爲全局平均池化，