論文閱讀筆記《Power Normalizing Second-order Similarity Network for Few-shot Learning》

核心思想

  本文提出一種基於二階統計量進行相似性度量的小樣本學習算法。二階統計量如:方差、協方差、二階矩、自相關函數、功率譜、互相關函數、互功率譜等在圖像細化和場景理解等視覺領域有着較爲廣泛的應用,但採用二階統計量進行特徵表達,需要配合適當的聚合或池化方法。本文首先將圖像的特徵信息轉化爲二階統計量,並且引入Power Normalization(PN)技術對其進行池化處理,最後採用距離度量的方式來實現分類任務。整個網絡的流程如下圖所示
在這裏插入圖片描述
  網絡的主體部分如圖a所示,首先支持集圖片(紫色、粉色、藍色、黑色和綠色)和查詢集圖片(黃色)經過一個嵌入式網絡得到對一個的特徵向量,然後將特徵向量轉化爲二階統計特徵,並將查詢集對應的特徵圖分別與支持集中每個類別對應的特徵圖級聯起來,接着經過PN操作,最後通過一個相似性度量網絡輸出查詢集圖片屬於每個類別的概率。作者用了大量篇幅去解釋了PN操作的過程,這也是作者另一篇文章《A Deeper Look at Power Normalizations》研究的核心內容,其細節我沒有看得太懂,但有一句話可能是理解該問題的核心,二階統計量存在這樣一個問題——"the property that a given visual element appears more times in an image than a statistically independent model would predict"一個特定的視覺元素出現在一張圖片裏的次數超過一個獨立地統計學模型所預測的值。而PN操作的目的就是——“Power Normalization which role is to reduce/boost contributions from frequent/infrequent visual stimuli in an image, respectively. ”減少頻繁的視覺刺激對結果的貢獻,增加不頻繁出現的視覺刺激對結果的貢獻。具體的證明過程感興趣的讀者可以去閱讀原文,此處不再贅述。
  作者定義了一個描述符或者算子v\mathcal{v}(原文符號打不出來)用於表示二階統計特徵和PN過程,並且作者提出了多種計算方式,計算過程如下表所示
在這裏插入圖片描述
式中Φ\Phi表示支持集圖像的特徵向量,Φ\Phi^*表示查詢集圖像的特徵向量,G\mathcal{G}表示PN過程,包含兩種方法:AsinhE 和 SigmE,計算過程如下
AsinhE:
在這裏插入圖片描述
SigmE:
在這裏插入圖片描述
  作者又提出CNN只能構建局部關係模型,在圖像或者特徵圖中存在空間局部相關性,而在上面過程得到的同現矩陣(co-occurrence matrices)卻不再是局部的了。因此作者將二階特徵矩陣打亂順序,然後分別輸入到相似性度量網絡中,這樣就能捕捉並比較不同的同現特徵了,如圖b和c所示。最終整個網絡的處理過程如下式
在這裏插入圖片描述

實現過程

網絡結構

  特徵提取網絡和相似性度量網絡結構如下
在這裏插入圖片描述

損失函數

  採用均方差誤差作爲目標函數
在這裏插入圖片描述
cccc'分別表示支持集和查詢集樣本的類別,F,S\mathcal{F,S}分別表示特徵提取網絡和相似性度量網絡的參數。

創新點

  • 採用二階統計量進行相似性度量
  • 引入Power Normalization(PN)技術對二階特徵信息進行處理,使其滿足需求
  • 對得到的二階特徵矩陣打亂順序,捕捉不同位置處的同現特徵

算法評價

  本文的核心思想並不複雜,就是希望採用二階統計特徵進行相似性比較,爲了實現這一目標又引入了PN操作和順序打亂等操作。但是由於二階統計特徵和PN都是比較陌生的概念,而且本文中充斥大量的符號的公式,使得文章閱讀起來存在一些困難。網上對於本文以及PN操作的介紹並不多,因此對於本文的解讀也屬於淺嘗輒止,某些過程和概念的理解可能也有誤,這篇筆記算是拋磚引玉,期待後來者能夠給出更詳實具體的解讀吧。

如果大家對於深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公衆號“深視”。在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章