論文閱讀筆記《Few-Shot Learning with Metric-Agnostic Conditional Embeddings》

核心思想

  本文提出一種基於度量學習的小樣本學習算法,思想上與Relation Network接近,沒有明確定義一種度量方法,而是利用卷積神經網絡學習並利用softmax層輸出屬於各個類別的概率值,但在結構上與Relation Network大有不同,並且增加了一個調節模塊。整個網絡分成四個階段:特徵提取階段,相關性階段,調節階段和分類階段,整個網絡的結構如下圖所示
在這裏插入圖片描述
  特徵提取階段沒什麼可說的,所有圖像採用相同的特徵提取網絡,得到對應的特徵向量。相關性階段,由圖可知,相關性網絡是與支持集圖像類別一一對應的,一個類別對應一個網絡,各個網絡之間是並行關係,同一類別的圖像都輸入到對應的網絡中提取與類別相關的特徵信息。輸入的時候是兩張同類別圖片組成一對,輸入到網絡中,然後將所有組合輸出的結果求平均值,作爲該類別的特徵值,計算過程如下
在這裏插入圖片描述
Rρ()R_{\rho}()表示類別特徵向量,SkS_k表示第kk個類別的圖片集合,nn表示同一類別中的圖片數量,gρg_{\rho}表示相關性網絡。得到了類別特徵向量後,就可以計算輸入圖像特徵與各個類別特徵之間的相似性了,但本文並沒有這樣做,而是增加了一個調節階段(Conditioning Stage),其結構與相關性網絡類似,每個類別對應一個網絡,將類別特徵向量和查詢集圖片的特徵向量級聯起來輸入到調節網絡中,這樣做的目的是爲了讓網絡能夠靈活地學習到圖像類別的哪些方面是與特定的查詢圖像有關的。計算過程如下
在這裏插入圖片描述
qq表示查詢集圖片,hγh_{\gamma}表示調節網絡。最後將所有類別對應網絡的輸出結果級聯起來,輸入到分類網絡中。該分類器並沒有採用事先定義好的距離度量函數,而是利用卷積神經網絡同時處理多個類別的信息,並利用softmax函數輸出最終屬於各個類別的概率值。

實現過程

網絡結構

  特徵提取網絡由四個卷積塊構成;相關性網絡結構如下
在這裏插入圖片描述
整個網絡由四個全連接層構成,每層後面都跟有BN層和ELU激活層,利用跳躍連接的方式將第一層的輸出和最後一層的輸出累加起來作爲輸出結果;調節網絡與相關性網絡結構類似,也是由四個全連接層構成,並帶有跳躍鏈接結構;分類網絡的結構如圖所示
在這裏插入圖片描述
由於輸出的特徵向量都是一維的,因此分類網絡的前兩層是1D的卷積層,然後是一個全連接層,最後是softmax層。

創新點

  • 提出一種與度量方式無關的小樣本學習算法,利用卷積神經網絡學習支持集圖像和查詢集圖像之間的關係與相似性
  • 設計了相關性網絡和調節網絡,針對每個類別都有一個專門的網絡進行處理

算法評價

  本文還是延續了特徵提取+分類器的常規思路,但在設計上有自己的獨到之處,就是用一個網絡處理一類圖像,這的確是比較少見的操作,這種方式的好處就在於網絡的針對性更強,但同樣也帶來許多問題,如果類別很多怎麼處理?多個網絡的並行會不會帶來內存壓力?分開類別後用於訓練每個網絡的圖片更少了,甚至只有一張圖片,如何保證每個網絡得到充分訓練?網絡結構會隨着訓練集情況發生變化,如何適應實際應用需求?本文在設計中增加了調節網絡這一步驟,其中將查詢集圖片也作爲輸入,一開始我認爲這類似於直推式學習(Transductive Learning)的方法,但後來發現這其實就是把類別特徵和查詢圖像特徵的比較提前了(原本是在分類網絡中進行比較),而且用多個網絡分別進行處理。

如果大家對於深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公衆號“深視”。在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章