1606.End--to-End Comparative Attention Networks for Person Re-identification 論文筆記

簡介

這裏寫圖片描述
參考人類視覺機制:即重複性的抓住某一區域主要信息來發現比較對象的相似性和差異性,來發現最匹配的目標,
利用LSTM網絡設計注意力機制,增加了時空信息,設計端到端訓練的比較性注意力網絡(CAN),訓練階段,該網絡採用online triplet損失,可以使LSTM網絡部分對同一ID的對個顯著性局部區域比較,並pull他們之間的相似性,而對不同ID的兩個行人的多個顯著性區域也進行學習,使之push開,得到大的表觀特徵區分性。
end to end 的說法:
This framework simulates the re-identification process of human visual system by learning a comparative model from raw person images to recurrently localize some discriminative parts of person images via a set of glimpses. At each glimpse, the model generates different parts without any manual annotations. And,this model generates attention regions based on the pre-extracted CNN.
features.
提取的特徵類似於一種動態特徵pooling的操作
這裏寫圖片描述
The end-to-end CAN learns to selectively focus on parts of pairs of person images after taking a few glimpses of them and adaptively comparing their appearance.
在測試階段,則所proposed CAN model simulates the human perception process to verify whether two images are from the same person.

模型架構:
global discriminative feature learning components,採用截斷的CNN 網絡,如Alexnet或VGG,訓練時,先用softmax預訓練一個classification model,然後移除後面的三個全連接層,他們被替換爲LSTM網絡
comparative attention components,一般用LSTM網絡,產生the comparative visual attention regional features
作者設計了一個concatenation layer is applied to concatenate a few time steps of hidden states along channel axis來整合某幾個時間步的特徵,
之後,採用多任務的訓練模式:triplet loss + identification loss,jointly end-to-end train our architecture with them,然後對特徵進行正則化:
這裏寫圖片描述
多loss結合的形式:
這裏寫圖片描述

test 訓練好的網絡:圖相對輸入+歐氏距離計算+ranking unit

關鍵詞:Comparative Attention Network, Multiple glimpses

作者的模型可以自適應的發現多個具有更多區分性信息的局部區域,這可以進一步提升reid的性能。

改進方向:考慮尺度變化問題。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章