论文阅读笔记《DeepEMD: Few-Shot Image Classification with Differentiable Earth Mover’s Distance》

核心思想

  本文提出一种基于度量学习的小样本学习算法(DeepEMD)。之前的基于度量学习的小样本学习算法通常是利用一个特征提取网络将支持集图像和查询集图像映射到一个特征空间,然后再设计或选择一种距离度量方式,来描述支持集图像和查询集图像之间的相似程度,并以此进行类别预测。而本文则是将图片拆分成多个图块,然后引入一种新的距离度量方式陆地移动距离(Earth Mover’s Distance,EMD),计算查询集和支持集图像的各个图块之间的最佳匹配代价来表示二者之间的相似程度。
  我们首先介绍下EMD的计算过程,EMD的计算本身是来源于线性规划中的运输问题,假设有一系列的货源地S={sii=1,...,m}\mathcal{S}=\left \{s_i|i=1,...,m\right \}和一系列的目的地D={djj=1,...,k}\mathcal{D}=\left \{d_j|j=1,...,k\right \}sis_idjd_j分别表示货源地ii的货物供应量和目的地jj的货物需求量,cijc_{ij}表示两地之间的单位运输成本,xijx_ij表示两地之间的运输量,那么运输问题的目的就是寻找运输成本最低的运输方案X~={x~iji=1,...,m,j=1,...,k}\tilde{\mathcal{X}}=\left \{\tilde{x}_{ij}|i=1,...,m,j=1,...,k\right \},过程如下
在这里插入图片描述
  本文将S\mathcal{S}D\mathcal{D}分别看作支持集图像和查询集图像对应的特征图,特征图中的每个像素点都是一个带有权重的结点,而sis_idjd_j分别对应各个结点的权重,支持集特征图每个像素点对应的特征向量为uiu_i,而查询集特征图每个像素点对应的特征向量为vjv_j,则两个结点间的运输成本cijc_{ij}可定义为
在这里插入图片描述
通过求解上述的线性规划问题,寻找最优的运输方案X~\tilde{\mathcal{X}},则两幅特征图之间的相似性可由下式计算
在这里插入图片描述
  然后作者证明了求解x~ij\tilde{x}_{ij}的过程是可微分的,因此可以采用梯队下降的方式进行求解。而在求解过程中结点上的权重sis_idjd_j是很重要的,他直接影响了运输方案的设计,因此本文提出一种相互参考机制(cross-reference mechanism),权重sis_i计算过程(djd_j的计算方法与其类似)如下
在这里插入图片描述
通过比较两方结点之间的关系来计算每个结点处的权重,这样做的目的是对于方差较大,变化较多的背景区域分配更少的权重,而对于两幅图中共现的目标区域分配更多的权重,然后再对所有的权重做正则化处理
在这里插入图片描述

  最后,将分类器中全连接层后的点乘操作,改为本文的EMD距离度量操作,就得到查询集图像与支持集图像的各个类别之间的相似性关系,进而预测分类结果,整体网络流程如下图所示
在这里插入图片描述

实现过程,

网络结构

  主干部分采用了全卷积的ResNet-10网络作为特征提取器。

创新点

  • 引入EMD距离度量方式,通过寻找各个图块之间的最佳匹配方式来计算距离
  • 设计了相互参考机制,用于计算每个节点处的权重

算法评价

  EMD距离最早是应用于图像检索等领域的,本文将其引入图像分类算法中,主要是看中了其考虑局部图块之间的匹配关系。在先前的文章中我们也提到过,相对于将一整幅图像压缩为一个高度抽象的特征向量,并计算两个特征向量之间的距离作为相似性度量的方式而言,通过比较各个局部图块之间的相似程度来反映两幅图像是否属于同一类别,则更为可靠和准确。但如果是每两个图块之间都逐一比对的话,这计算成本也过于高昂,于是作者就利用EMD方法,通过线性规划的方式寻找两幅图像各个图块之间的最佳匹配方式,并且为不同的位置的图块分配了不同的权重,类似于注意力机制,对于目标区域给予更多注意。

如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章