AlignedReID: Surpassing Human-Level Performance in Person Re-Identification

行人重識別之局部特徵

AlignedReID: Surpassing Human-Level Performance in Person Re-Identification

原文鏈接:https://arxiv.org/pdf/1711.08184.pdf

本文的標題很唬人,其實疊加了很多的tricks。除了本文最重要的創新點局部特徵聯合之外,還利用了Mutual Learning、rerank、hard triplet loss。在Market1501和CUHK03上的mAP分別達到了90.7%和97.8%。所以雖然 tricks很多,但是也讓我們看到了計算機的潛能。

接下來,重點聊聊這篇文章中提出的局部特徵聯合吧。

先看看網絡結構:

在這裏插入圖片描述
global feature很簡單,沒什麼特別的。主要看看local feature部分。對於每一張圖片的2048x7x7的特徵向量,通過池化和1x1卷積生成了128x7的特徵圖。共有七行,每一行與圖片的七分之一的水平分割塊相對應。

這也沒什麼特別的,看到這,一般人的想法都會認爲所謂聯合就是比較一下兩張圖的7個部分,計算出7x7=49種相似度,再算出總的相似度。但是作者提出來了一種神奇的新思想。

用f和g分別代表兩張圖的特徵,每一個特徵都有H(7)行,用如下公式計算出行與行之間的距離。這樣就可以計算出一個7x7的矩陣。
在這裏插入圖片描述

重點來了,如何用這個矩陣計算總的相似度呢?

在這裏插入圖片描述
如上圖所示,計算從(1,1)走到(7,7)的最短路徑(也就是這條路徑上所有的相似度之和最小)。這樣,圖中的拐點就表示兩個圖像相對應的位置,比如(2,4),表示A的第二塊和B的第四塊是對應的,而圖中也確實是對應的。這樣在優化的過程中,就會不斷優化拐點的距離,同類減小,異類增大。直接實現了局部特徵的充分利用,間接實現了圖片的軟對齊。

最後我們看一個例子,看看大家是否具備行人重識別的慧眼。

在這裏插入圖片描述
反正我是看不出來到底是第三個還是第六個,作者也沒給答案。所以計算機確實挺厲害的…

總結:這篇文章讓我們看到了計算機的潛力,所以AI確實大有可爲。另外,引用作者的一句話作爲結尾:the end-to-end learning with structure prior is
more powerful than a “blind” end-to-end learning

歡迎討論 歡迎吐槽

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章