論文閱讀筆記《Variational Prototyping-Encoder: One-Shot Learning with Prototypical Images》

核心思想

  本文提出一種利用變分自動編碼器(VAE)生成原型圖像(Prototypical Images),並利用最近鄰算法解決小樣本的圖標或標誌分類問題的算法。整個算法思想很簡單,首先作者指出實際中我們拍攝採集到的圖片通常都會有背景模糊,形狀或光照干擾等因素,用這些圖片做小樣本分類的話自然效果很差。於是作者提出了原型圖像的概念(Prototypical Images與原型網絡 Prototypical Network中原型的概念完全不同,請注意區分),就是那種標準的,沒有任何形變和模糊的圖像,類似於下圖
在這裏插入圖片描述
  如果用這種圖像做分類,那效果應該好很多。作者按照這個思路提出了一種基於變分自編碼器(VAE)的原型圖像生成網絡,關於VAE我在另一篇博客中介紹過(點擊此處),此處就不再詳細介紹了。大體的過程就是將一個圖片xx輸入編碼器,得到一個隱藏變量zz,然後經過解碼器重構得到x^\hat{x},但注意本文的方法略有不同,本文不是想得到重構的x^\hat{x},而是對應的原型圖像tt,這就形成一種圖像遷移的效果,輸入xx,輸出tt。經過訓練之後,網絡編碼器具備了將圖像轉化爲具有表徵能力的特徵向量,在測試時只需要將支持集和查詢集的圖像都轉化爲對應的特徵向量,然後按照最近鄰方法進行分類(距離度量採用歐式距離),就能得到對應類別了。訓練和測試過程如下圖所示
在這裏插入圖片描述

實現過程

網絡結構

  如下圖所示
在這裏插入圖片描述

損失函數

  與一般的VAE損失函數略有不同,本文要比較原型圖像tt和輸入圖像xx之間的重構差異
在這裏插入圖片描述
對於重構損失pθp_{\theta}本文采用的是二元交叉熵損失函數BCE。

創新點

  • 引入原型圖像的概念,利用VAE結構生成原型圖像

算法評價

  本文利用VAE結構生成原型圖像,並利用編碼器作爲特徵提取器,通過比較隱藏向量之間的歐氏距離尋找最爲接近的樣本,實現分類任務。正如作者自己左說,這個VAE結構可以看做一種降噪網絡,把圖像中的干擾信息排除,保留最直觀最重要的原型圖像。但本文無論是採用的VAE生成式模型還是利用隱藏空間中的特徵向量進行最近鄰分類都不是非常新穎的想法,唯一的創新可能就是原型圖像這一概念了吧,但這一概念也並不具備普遍性,如果數據集圖像質量普遍較高,這一做法就退化爲一個簡單的最近鄰分類了。

如果大家對於深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公衆號“深視”。在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章