Deep Spatial Feature Reconstruction for Partial Person Re-identification: Alignment-free Approach筆記

Paper:https://arxiv.org/abs/1801.00881
Code:https://github.com/lingxiao-he/Partial-Person-ReID
前言:這是一篇關於partial行人重識別的方向的論文,收錄於2018年的CVPR。全文是基於query是partial圖像,而gallery是完整的行人圖像。
摘要:Partial行人重識別由於行人圖像是局部可見的導致行人匹配具有挑戰性。然而對於partial行人重識別的研究也比較少。針對此問題,本文提出了快速、準確的匹配方法。該方法利用全卷積網絡(FCN)生成固定大小的空間特徵圖,保證像素級特徵的一致性。爲了匹配size不同的兩張圖像,進一步提出了避免精確對齊的深度空間特徵重構(DSR)方法。具體來說,DSR利用當前流行的字典學習模型的重構誤差來計算不同空間特徵圖之間的相似度。由此,期望FCN可以增加相同行人的相似性,減少不同行人的相似性。在partial行人重識別的數據集上結果表明證明了方法的有效性。而且在完整行人重識別上也取得了極具競爭力的結果。
相關工作:滑動窗口匹配(SWM)通過構造一個和query圖像size相同的滑動窗口,用它在gallery圖像上檢索最相似的區域,此方式爲partial行人重識別提供瞭解決思路。然而這樣方式需要query圖像的size小於gallery圖像。更進一步,一些方法採用圖像分塊的方式來代替以上方法。然後,上述方法耗時較長且需要良好的前景對齊,而且相關區域需要重複的特徵提取。
本文提出了一種新穎且快速的partial行人重識別框架可以實現size不同的成對圖像的匹配。利用FCN生成一定size的空間特徵圖,可以將其視爲像素級特徵矩陣。受啓發於字典學習在人臉識別領域的巨大成功,提出了基於深度空間特徵重構的端到端模型,可以基於gallery中的圖像的空間特徵稀疏重構出query圖像空間特徵圖上的每一個像素。基於以上算法,模型不需要嚴格的圖像size一致,自然也避免了對齊的耗時。具體來說,爲FCN設計目標函數,使得同一個ID的圖像的空間特徵圖重建誤差小於不同ID圖像空間特徵圖的重構誤差。
在這裏插入圖片描述
知識點解析:
a)FCN:原始的CNN由於全連接層的存在需要特定size的輸入,由於partial行人圖像有不一的size/scale而無法保證。因此本文將所有的全連接層一出移除而知保留卷積層和池化層,具體結構圖如下。
在這裏插入圖片描述
b)Deep Spatial Feature Reconstruction(DSR):主要用來測量不同大小的成對圖像的相似性。假設給定一對圖像,分別爲partial圖像II和完整圖像JJ,經過FCN卷積之後的空間特徵圖爲xxyy,其大小用w×h×dw \times h \times d,將xx分成NN個塊,N=w×hN = w \times h,因此xn=1×1×dx_n = 1 \times 1 \times d,具體公式如下:
在這裏插入圖片描述

在這裏插入圖片描述
因此,可以將YY利用線性組合來表示xnx_n,也就是,搜索相似塊來重構xnx_n。因此,需求出xnx_n關於YY的稀疏係數wnw_nwn=M×1w_n = M \times 1。由於重建xnx_n需較少的YY模塊,因此使用L1L_1正則化約束,具體公式如下:
在這裏插入圖片描述
β\beta用來控制編碼向量的稀疏性。xnYwn22||x_n - Yw_n||_2^2用來表示xnx_nYY的相似性,彙總如下:
在這裏插入圖片描述
WW表示稀疏係數重構矩陣。以上即爲DSR的流程,具體如圖和僞代碼如下所示:
在這裏插入圖片描述
在這裏插入圖片描述
c)Fine-tuning on Pretrained FCN with DSR:本文采用分類任務來訓練FCN,如下圖圖。爲提升模型提取顯著特徵的能力,使用帶有DSR的遷移學習來對卷積層進行更新,如下圖。DSR鼓勵同一ID的特徵映射相似,不同ID的特徵映射不同。DSR可以視爲驗證信號,損失函數定義如下:
在這裏插入圖片描述
兩個特徵屬於同一ID時α=1\alpha = 1,否則α=1\alpha = -1。本文采用交替訓練來優化參數,1,固定θ\theta(FCN),優化WW(DSR)。
在這裏插入圖片描述
2,固定wcw_c,優化θ\theta
在這裏插入圖片描述
d)Multi-scale Block Representation:提取query圖像的尺度無約束特徵對於partial行人重識別具有挑戰性和重要意義。爲了減弱尺度失配的影響,在DSR提出多尺度塊表示。
在這裏插入圖片描述
本文具體使用三種尺度塊:1×11\times 12×22\times 23×33\times 3,這些block通過滑動窗口的方式進行提取(stride = 1)。爲了保證size一致,通過平均池化將2×22\times 23×33\times 3調整爲1×11\times 1,多尺度block主要是提升多尺度變化的魯棒性。與圖像級多尺度不同的是,特徵級多尺度可以減少計算量和特徵共享。
結論:算法實現了當時partial行人重識別的SOTA,而且特徵重構可以實現特徵共享和減少計算量。但逐步優化的過程總給人不是end-to-end的感覺。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章