Deep Spatial Feature Reconstruction for Partial Person Re-identification: Alignment-free Approach筆記

Paper：https://arxiv.org/abs/1801.00881
Code：https://github.com/lingxiao-he/Partial-Person-ReID
前言：這是一篇關於partial行人重識別的方向的論文，收錄於2018年的CVPR。全文是基於query是partial圖像，而gallery是完整的行人圖像。
摘要：Partial行人重識別由於行人圖像是局部可見的導致行人匹配具有挑戰性。然而對於partial行人重識別的研究也比較少。針對此問題，本文提出了快速、準確的匹配方法。該方法利用全卷積網絡(FCN)生成固定大小的空間特徵圖，保證像素級特徵的一致性。爲了匹配size不同的兩張圖像，進一步提出了避免精確對齊的深度空間特徵重構（DSR）方法。具體來說，DSR利用當前流行的字典學習模型的重構誤差來計算不同空間特徵圖之間的相似度。由此，期望FCN可以增加相同行人的相似性，減少不同行人的相似性。在partial行人重識別的數據集上結果表明證明了方法的有效性。而且在完整行人重識別上也取得了極具競爭力的結果。
相關工作：滑動窗口匹配（SWM）通過構造一個和query圖像size相同的滑動窗口，用它在gallery圖像上檢索最相似的區域，此方式爲partial行人重識別提供瞭解決思路。然而這樣方式需要query圖像的size小於gallery圖像。更進一步，一些方法採用圖像分塊的方式來代替以上方法。然後，上述方法耗時較長且需要良好的前景對齊，而且相關區域需要重複的特徵提取。
本文提出了一種新穎且快速的partial行人重識別框架可以實現size不同的成對圖像的匹配。利用FCN生成一定size的空間特徵圖，可以將其視爲像素級特徵矩陣。受啓發於字典學習在人臉識別領域的巨大成功，提出了基於深度空間特徵重構的端到端模型，可以基於gallery中的圖像的空間特徵稀疏重構出query圖像空間特徵圖上的每一個像素。基於以上算法，模型不需要嚴格的圖像size一致，自然也避免了對齊的耗時。具體來說，爲FCN設計目標函數，使得同一個ID的圖像的空間特徵圖重建誤差小於不同ID圖像空間特徵圖的重構誤差。

知識點解析：
a）FCN：原始的CNN由於全連接層的存在需要特定size的輸入，由於partial行人圖像有不一的size/scale而無法保證。因此本文將所有的全連接層一出移除而知保留卷積層和池化層，具體結構圖如下。

b）Deep Spatial Feature Reconstruction（DSR）：主要用來測量不同大小的成對圖像的相似性。假設給定一對圖像，分別爲partial圖像 $I$ 和完整圖像 $J$ ，經過FCN卷積之後的空間特徵圖爲 $x$ 和 $y$ ，其大小用 $w \times h \times d$ ，將 $x$ 分成 $N$ 個塊， $N = w \times h$ ，因此 $x_n = 1 \times 1 \times d$ ，具體公式如下：

因此，可以將 $Y$ 利用線性組合來表示 $x_n$ ，也就是，搜索相似塊來重構 $x_n$ 。因此，需求出 $x_n$ 關於 $Y$ 的稀疏係數 $w_n$ ， $w_n = M \times 1$ 。由於重建 $x_n$ 需較少的 $Y$ 模塊，因此使用 $L_1$ 正則化約束，具體公式如下：

$\beta$ 用來控制編碼向量的稀疏性。 $||x_n - Yw_n||_2^2$ 用來表示 $x_n$ 和 $Y$ 的相似性，彙總如下：

$W$ 表示稀疏係數重構矩陣。以上即爲DSR的流程，具體如圖和僞代碼如下所示：

c）Fine-tuning on Pretrained FCN with DSR：本文采用分類任務來訓練FCN，如下圖圖。爲提升模型提取顯著特徵的能力，使用帶有DSR的遷移學習來對卷積層進行更新，如下圖。DSR鼓勵同一ID的特徵映射相似，不同ID的特徵映射不同。DSR可以視爲驗證信號，損失函數定義如下：

兩個特徵屬於同一ID時 $\alpha = 1$ ，否則 $\alpha = -1$ 。本文采用交替訓練來優化參數，1，固定 $\theta$ （FCN），優化 $W$ （DSR）。

2，固定 $w_c$ ，優化 $\theta$ 。

d）Multi-scale Block Representation：提取query圖像的尺度無約束特徵對於partial行人重識別具有挑戰性和重要意義。爲了減弱尺度失配的影響，在DSR提出多尺度塊表示。

本文具體使用三種尺度塊： $1\times 1$ ， $2\times 2$ ， $3\times 3$ ，這些block通過滑動窗口的方式進行提取(stride = 1)。爲了保證size一致，通過平均池化將 $2\times 2$ ， $3\times 3$ 調整爲 $1\times 1$ ，多尺度block主要是提升多尺度變化的魯棒性。與圖像級多尺度不同的是，特徵級多尺度可以減少計算量和特徵共享。
結論：算法實現了當時partial行人重識別的SOTA，而且特徵重構可以實現特徵共享和減少計算量。但逐步優化的過程總給人不是end-to-end的感覺。