論文閱讀筆記《DeepEMD: Few-Shot Image Classification with Differentiable Earth Mover’s Distance》

核心思想

  本文提出一種基於度量學習的小樣本學習算法(DeepEMD)。之前的基於度量學習的小樣本學習算法通常是利用一個特徵提取網絡將支持集圖像和查詢集圖像映射到一個特徵空間,然後再設計或選擇一種距離度量方式,來描述支持集圖像和查詢集圖像之間的相似程度,並以此進行類別預測。而本文則是將圖片拆分成多個圖塊,然後引入一種新的距離度量方式陸地移動距離(Earth Mover’s Distance,EMD),計算查詢集和支持集圖像的各個圖塊之間的最佳匹配代價來表示二者之間的相似程度。
  我們首先介紹下EMD的計算過程,EMD的計算本身是來源於線性規劃中的運輸問題,假設有一系列的貨源地S={sii=1,...,m}\mathcal{S}=\left \{s_i|i=1,...,m\right \}和一系列的目的地D={djj=1,...,k}\mathcal{D}=\left \{d_j|j=1,...,k\right \}sis_idjd_j分別表示貨源地ii的貨物供應量和目的地jj的貨物需求量,cijc_{ij}表示兩地之間的單位運輸成本,xijx_ij表示兩地之間的運輸量,那麼運輸問題的目的就是尋找運輸成本最低的運輸方案X~={x~iji=1,...,m,j=1,...,k}\tilde{\mathcal{X}}=\left \{\tilde{x}_{ij}|i=1,...,m,j=1,...,k\right \},過程如下
在這裏插入圖片描述
  本文將S\mathcal{S}D\mathcal{D}分別看作支持集圖像和查詢集圖像對應的特徵圖,特徵圖中的每個像素點都是一個帶有權重的結點,而sis_idjd_j分別對應各個結點的權重,支持集特徵圖每個像素點對應的特徵向量爲uiu_i,而查詢集特徵圖每個像素點對應的特徵向量爲vjv_j,則兩個結點間的運輸成本cijc_{ij}可定義爲
在這裏插入圖片描述
通過求解上述的線性規劃問題,尋找最優的運輸方案X~\tilde{\mathcal{X}},則兩幅特徵圖之間的相似性可由下式計算
在這裏插入圖片描述
  然後作者證明了求解x~ij\tilde{x}_{ij}的過程是可微分的,因此可以採用梯隊下降的方式進行求解。而在求解過程中結點上的權重sis_idjd_j是很重要的,他直接影響了運輸方案的設計,因此本文提出一種相互參考機制(cross-reference mechanism),權重sis_i計算過程(djd_j的計算方法與其類似)如下
在這裏插入圖片描述
通過比較兩方結點之間的關係來計算每個結點處的權重,這樣做的目的是對於方差較大,變化較多的背景區域分配更少的權重,而對於兩幅圖中共現的目標區域分配更多的權重,然後再對所有的權重做正則化處理
在這裏插入圖片描述

  最後,將分類器中全連接層後的點乘操作,改爲本文的EMD距離度量操作,就得到查詢集圖像與支持集圖像的各個類別之間的相似性關係,進而預測分類結果,整體網絡流程如下圖所示
在這裏插入圖片描述

實現過程,

網絡結構

  主幹部分採用了全卷積的ResNet-10網絡作爲特徵提取器。

創新點

  • 引入EMD距離度量方式,通過尋找各個圖塊之間的最佳匹配方式來計算距離
  • 設計了相互參考機制,用於計算每個節點處的權重

算法評價

  EMD距離最早是應用於圖像檢索等領域的,本文將其引入圖像分類算法中,主要是看中了其考慮局部圖塊之間的匹配關係。在先前的文章中我們也提到過,相對於將一整幅圖像壓縮爲一個高度抽象的特徵向量,並計算兩個特徵向量之間的距離作爲相似性度量的方式而言,通過比較各個局部圖塊之間的相似程度來反映兩幅圖像是否屬於同一類別,則更爲可靠和準確。但如果是每兩個圖塊之間都逐一比對的話,這計算成本也過於高昂,於是作者就利用EMD方法,通過線性規劃的方式尋找兩幅圖像各個圖塊之間的最佳匹配方式,並且爲不同的位置的圖塊分配了不同的權重,類似於注意力機制,對於目標區域給予更多注意。

如果大家對於深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公衆號“深視”。在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章