行人重識別之局部識別(CVPR2019)
Perceive Where to Focus: Learning Visibility-aware Part-level Features
for Partial Person Re-identification
原文鏈接:https://arxiv.org/abs/1904.00537
這篇文章的核心思想是:
如下圖(a),兩幅圖的空間位置失配。如圖(b),左側圖片多出來的腿部,不能有助於識別,甚至成爲了信息干擾。所以,如©所示,與左邊的完整圖片相對應,作者希望能夠讓模型自動識別出右側殘缺圖片包含的部分,然後僅利用包含的部分,進行識別。接下來,對實施過程進行介紹。
總體框架:
如上圖(假設把完整圖片分爲了三部分,實際中可以設置爲任意部分,好比第一幅圖中的六部分),通過卷積層獲得特徵向量T,再經過1x1卷積和softmax分類器,獲得三張(與三部分對應)概率map。相當於對T中的每一個像素進行預測,屬於哪一個部分。利用T和map加權計算,得到每一個部分獲得的特徵向量。將每一張map求和,獲得分數C,C越大就代表殘缺圖片含有這個部分的概率越大。
如何訓練?
將對應的完整圖片提前設計好分爲幾個部分。這樣特徵向量T中的每一個像素g就可以賦予標籤(屬於哪一個部分),從而進行訓練。
總共有三個損失函數:每一個像素的分類損失(交叉熵)、使用每一個部分的特徵向量單獨預測人物身份的分類損失(交叉熵)、triplet loss。
如下圖所示,只使用殘缺圖片中包含的部分對應的特徵向量計算第二個和第三個損失函數。
如何分類?
用以下公式計算圖片k和圖片l的距離:
Ci是包含第i部分的概率,Di是兩個圖片第i部分的距離。可以看出來,只要有一張圖片不含有第i部分(Ci很小),那麼Di對於距離的貢獻就非常小了,這樣便實現了這篇文章的核心思想。
最後用可視化結果進行直觀感受:
上面八張圖是模型的分割結果,可以看出,有三張圖有缺失的時候,模型只分割了四個部分。圖片完整時,就可以進行六部分的分割了。
總結:作者賦予了模型觀察力,去發現圖片是否有缺失,從而在一定程度上解決空間失配和圖片不完整的問題。局部行人重識別是一個較新的課題,利用殘缺圖片識別,增加了難度,有較大研究空間。兩個專門做局部行人重識別的數據庫:Partial-REID和Partial-iLIDS。
完
歡迎討論 歡迎吐槽