1606.End--to-End Comparative Attention Networks for Person Re-identification 论文笔记

简介

这里写图片描述
参考人类视觉机制:即重复性的抓住某一区域主要信息来发现比较对象的相似性和差异性,来发现最匹配的目标,
利用LSTM网络设计注意力机制,增加了时空信息,设计端到端训练的比较性注意力网络(CAN),训练阶段,该网络采用online triplet损失,可以使LSTM网络部分对同一ID的对个显著性局部区域比较,并pull他们之间的相似性,而对不同ID的两个行人的多个显著性区域也进行学习,使之push开,得到大的表观特征区分性。
end to end 的说法:
This framework simulates the re-identification process of human visual system by learning a comparative model from raw person images to recurrently localize some discriminative parts of person images via a set of glimpses. At each glimpse, the model generates different parts without any manual annotations. And,this model generates attention regions based on the pre-extracted CNN.
features.
提取的特征类似于一种动态特征pooling的操作
这里写图片描述
The end-to-end CAN learns to selectively focus on parts of pairs of person images after taking a few glimpses of them and adaptively comparing their appearance.
在测试阶段,则所proposed CAN model simulates the human perception process to verify whether two images are from the same person.

模型架构:
global discriminative feature learning components,采用截断的CNN 网络,如Alexnet或VGG,训练时,先用softmax预训练一个classification model,然后移除后面的三个全连接层,他们被替换为LSTM网络
comparative attention components,一般用LSTM网络,产生the comparative visual attention regional features
作者设计了一个concatenation layer is applied to concatenate a few time steps of hidden states along channel axis来整合某几个时间步的特征,
之后,采用多任务的训练模式:triplet loss + identification loss,jointly end-to-end train our architecture with them,然后对特征进行正则化:
这里写图片描述
多loss结合的形式:
这里写图片描述

test 训练好的网络:图相对输入+欧氏距离计算+ranking unit

关键词:Comparative Attention Network, Multiple glimpses

作者的模型可以自适应的发现多个具有更多区分性信息的局部区域,这可以进一步提升reid的性能。

改进方向:考虑尺度变化问题。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章