行人重識別(Person Re-ID)【二】:基於深度學習的行人重識別研究綜述

本文轉載自:https://zhuanlan.zhihu.com/p/31921944

 

前言:行人重識別(Person Re-identification)也稱行人再識別,本文簡稱爲ReID,是利用計算機視覺技術判斷圖像或者視頻序列中是否存在特定行人的技術。廣泛被認爲是一個圖像檢索的子問題。給定一個監控行人圖像,檢索跨設備下的該行人圖像。

在監控視頻中,由於相機分辨率和拍攝角度的緣故,通常無法得到質量非常高的人臉圖片。當人臉識別失效的情況下,ReID就成爲了一個非常重要的替代品技術。ReID有一個非常重要的特性就是跨攝像頭,所以學術論文裏評價性能的時候,是要檢索出不同攝像頭下的相同行人圖片。ReID已經在學術界研究多年,但直到最近幾年隨着深度學習的發展,才取得了非常巨大的突破。因此本文介紹一些近幾年基於深度學習的ReID工作,由於精力有限並不能涵蓋所有工作,只能介紹幾篇代表性的工作。按照個人的習慣,我把這些方法分爲以下幾類:

  • 基於表徵學習的ReID方法

  • 基於度量學習的ReID方法

  • 基於局部特徵的ReID方法

  • 基於視頻序列的ReID方法

  • 基於GAN造圖的ReID方法

1.基於表徵學習的ReID方法

基於表徵學習(Representation learning)的方法是一類非常常用的行人重識別方法[1-4]。這主要得益於深度學習,尤其是卷積神經網絡(Convolutional neural network, CNN)的快速發展。由於CNN可以自動從原始的圖像數據中根據任務需求自動提取出表徵特徵(Representation),所以有些研究者把行人重識別問題看做分類(Classification/Identification)問題或者驗證(Verification)問題:(1)分類問題是指利用行人的ID或者屬性等作爲訓練標籤來訓練模型;(2)驗證問題是指輸入一對(兩張)行人圖片,讓網絡來學習這兩張圖片是否屬於同一個行人。

論文[1]利用Classification/Identification loss和verification loss來訓練網絡,其網絡示意圖如下圖所示。網絡輸入爲若干對行人圖片,包括分類子網絡(Classification Subnet)和驗證子網絡(Verification Subnet)。分類子網絡對圖片進行ID預測,根據預測的ID來計算分類誤差損失。驗證子網絡融合兩張圖片的特徵,判斷這兩張圖片是否屬於同一個行人,該子網絡實質上等於一個二分類網絡。經過足夠數據的訓練,再次輸入一張測試圖片,網絡將自動提取出一個特徵,這個特徵用於行人重識別任務。

但是也有論文認爲光靠行人的ID信息不足以學習出一個泛化能力足夠強的模型。在這些工作中,它們額外標註了行人圖片的屬性特徵,例如性別、頭髮、衣着等屬性。通過引入行人屬性標籤,模型不但要準確地預測出行人ID,還要預測出各項正確的行人屬性,這大大增加了模型的泛化能力,多數論文也顯示這種方法是有效的。下圖是其中一個示例[2],從圖中可以看出,網絡輸出的特徵不僅用於預測行人的ID信息,還用於預測各項行人屬性。通過結合ID損失和屬性損失能夠提高網絡的泛化能力。

如今依然有大量工作是基於表徵學習,表徵學習也成爲了ReID領域的一個非常重要的baseline,並且表徵學習的方法比較魯棒,訓練比較穩定,結果也比較容易復現。但是個人的實際經驗感覺表徵學習容易在數據集的domain上過擬合,並且當訓練ID增加到一定程度的時候會顯得比較乏力。

2.基於度量學習的ReID方法

度量學習(Metric learning)是廣泛用於圖像檢索領域的一種方法。不同於表徵學習,度量學習旨在通過網絡學習出兩張圖片的相似度。在行人重識別問題上,具體爲同一行人的不同圖片相似度大於不同行人的不同圖片。最後網絡的損失函數使得相同行人圖片(正樣本對)的距離儘可能小,不同行人圖片(負樣本對)的距離儘可能大。常用的度量學習損失方法有對比損失(Contrastive loss)[5]、三元組損失(Triplet loss)[6-8]、 四元組損失(Quadruplet loss)[9]、難樣本採樣三元組損失(Triplet hard loss with batch hard mining, TriHard loss)[10]、邊界挖掘損失(Margin sample mining loss, MSML)[11]。首先,假如有兩張輸入圖片和,通過網絡的前饋我們可以得到它們歸一化後的特徵向量和。我們定義這兩張圖片特徵向量的歐式距離爲:

(1)對比損失(Contrastive loss)

對比損失用於訓練孿生網絡(Siamese network),其結構圖如上圖所示。孿生網絡的輸入爲一對(兩張)圖片和,這兩張圖片可以爲同一行人,也可以爲不同行人。每一對訓練圖片都有一個標籤,其中表示兩張圖片屬於同一個行人(正樣本對),反之表示它們屬於不同行人(負樣本對)。之後,對比損失函數寫作:

其中表示 ,是根據實際需求設計的閾值參數。爲了最小化損失函數,當網絡輸入一對正樣本對,會逐漸變小,即相同ID的行人圖片會逐漸在特徵空間形成聚類。反之,當網絡輸入一對負樣本對時,會逐漸變大直到超過設定的。通過最小化,最後可以使得正樣本對之間的距離逐漸變小,負樣本對之間的距離逐漸變大,從而滿足行人重識別任務的需要。

(2)三元組損失(Triplet loss)

三元組損失是一種被廣泛應用的度量學習損失,之後的大量度量學習方法也是基於三元組損失演變而來。顧名思義,三元組損失需要三張輸入圖片。和對比損失不同,一個輸入的三元組(Triplet)包括一對正樣本對和一對負樣本對。三張圖片分別命名爲固定圖片(Anchor),正樣本圖片(Positive)和負樣本圖片(Negative)。圖片和圖片爲一對正樣本對,圖片和圖片爲一對負樣本對。則三元組損失表示爲:

如下圖所示,三元組可以拉近正樣本對之間的距離,推開負樣本對之間的距離,最後使得相同ID的行人圖片在特徵空間裏形成聚類,達到行人重識別的目的。

論文[8]認爲原版的Triplet loss只考慮正負樣本對之間的相對距離,而並沒有考慮正樣本對之間的絕對距離,爲此提出改進三元組損失(Improved triplet loss):

公式添加項,保證網絡不僅能夠在特徵空間把正負樣本推開,也能保證正樣本對之間的距離很近。

(3) 四元組損失(Quadruplet loss)

四元組損失是三元組損失的另一個改進版本。顧名思義,四元組(Quadruplet)需要四張輸入圖片,和三元組不同的是多了一張負樣本圖片。即四張圖片爲固定圖片(Anchor) ,正樣本圖片(Positive) ,負樣本圖片1(Negative1)和負樣本圖片2(Negative2)。其中和是兩張不同行人ID的圖片,其結構如上圖所示。則四元組損失表示爲:

其中和是手動設置的正常數,通常設置小於,前一項稱爲強推動,後一項稱爲弱推動。相比於三元組損失只考慮正負樣本間的相對距離,四元組添加的第二項不共享ID,所以考慮的是正負樣本間的絕對距離。因此,四元組損失通常能讓模型學習到更好的表徵。

(4)難樣本採樣三元組損失(Triplet loss with batch hard mining, TriHard loss)

難樣採樣三元組損失(本文之後用TriHard損失表示)是三元組損失的改進版。傳統的三元組隨機從訓練數據中抽樣三張圖片,這樣的做法雖然比較簡單,但是抽樣出來的大部分都是簡單易區分的樣本對。如果大量訓練的樣本對都是簡單的樣本對,那麼這是不利於網絡學習到更好的表徵。大量論文發現用更難的樣本去訓練網絡能夠提高網絡的泛化能力,而採樣難樣本對的方法很多。論文[10]提出了一種基於訓練批量(Batch)的在線難樣本採樣方法——TriHard Loss。

TriHard損失的核心思想是:對於每一個訓練batch,隨機挑選個ID的行人,每個行人隨機挑選張不同的圖片,即一個batch含有張圖片。之後對於batch中的每一張圖片,我們可以挑選一個最難的正樣本和一個最難的負樣本和組成一個三元組。

首先我們定義和爲相同ID的圖片集爲,剩下不同ID的圖片圖片集爲,則TriHard損失表示爲:

其中是人爲設定的閾值參數。TriHard損失會計算和batch中的每一張圖片在特徵空間的歐式距離,然後選出與 距離最遠(最不像)的正樣本和距離最近(最像)的負樣本來計算三元組損失。通常TriHard損失效果比傳統的三元組損失要好。

(5)邊界挖掘損失(Margin sample mining loss, MSML)

邊界樣本挖掘損失(MSML)是一種引入難樣本採樣思想的度量學習方法。三元組損失只考慮了正負樣本對之間的相對距離。爲了引入正負樣本對之間的絕對距離,四元組損失加入一張負樣本組成了四元組。四元組損失也定義爲:

假如我們忽視參數和的影響,我們可以用一種更加通用的形式表示四元組損失:

其中和是一對負樣本對,和既可以是一對正樣本對也可以是一對負樣本對。之後把TriHard loss的難樣本挖掘思想引入進來,便可以得到:

其中,,,均是batch中的圖片,,是batch中最不像的正樣本對,,是batch 中最像的負樣本對,,皆可以是正樣本對也可以是負樣本對。概括而言TriHard損失是針對batch中的每一張圖片都挑選了一個三元組,而MSML損失只挑選出最難的一個正樣本對和最難的一個負樣本對計算損失。所以MSML是比TriHard更難的一種難樣本採樣,此外可以看作是正樣本對距離的上界,可以看作是負樣本對的下界。MSML是爲了把正負樣本對的邊界給推開,因此命名爲邊界樣本挖掘損失。總的概括,MSML是同時兼顧相對距離和絕對距離並引入了難樣本採樣思想的度量學習方法。其演變思想如下圖:

(6)各種loss的性能對比

在論文[11]之中,對上面提到的主要損失函數在儘可能公平的實驗的條件下進行性能對比,實驗結果如下表所示。作爲一個參考

3.基於局部特徵的ReID方法

早期的ReID研究大家還主要關注點在全局的global feature上,就是用整圖得到一個特徵向量進行圖像檢索。但是後來大家逐漸發現全局特徵遇到了瓶頸,於是開始漸漸研究起局部的local feature。常用的提取局部特徵的思路主要有圖像切塊、利用骨架關鍵點定位以及姿態矯正等等。

(1)圖片切塊是一種很常見的提取局部特徵方式[12]。如下圖所示,圖片被垂直等分爲若干份,因爲垂直切割更符合我們對人體識別的直觀感受,所以行人重識別領域很少用到水平切割。

之後,被分割好的若干塊圖像塊按照順序送到一個長短時記憶網絡(Long short term memory network, LSTM),最後的特徵融合了所有圖像塊的局部特徵。但是這種缺點在於對圖像對齊的要求比較高,如果兩幅圖像沒有上下對齊,那麼很可能出現頭和上身對比的現象,反而使得模型判斷錯誤。

(2)爲了解決圖像不對齊情況下手動圖像切片失效的問題,一些論文利用一些先驗知識先將行人進行對齊,這些先驗知識主要是預訓練的人體姿態(Pose)和骨架關鍵點(Skeleton) 模型。論文[13]先用姿態估計的模型估計出行人的關鍵點,然後用仿射變換使得相同的關鍵點對齊。如下圖所示,一個行人通常被分爲14個關鍵點,這14個關鍵點把人體結果分爲若干個區域。爲了提取不同尺度上的局部特徵,作者設定了三個不同的PoseBox組合。之後這三個PoseBox矯正後的圖片和原始爲矯正的圖片一起送到網絡裏去提取特徵,這個特徵包含了全局信息和局部信息。特別提出,這個仿射變換可以在進入網絡之前的預處理中進行,也可以在輸入到網絡後進行。如果是後者的話需要需要對仿射變換做一個改進,因爲傳統的仿射變化是不可導的。爲了使得網絡可以訓練,需要引入可導的近似放射變化,在本文中不贅述相關知識。

(3)CVPR2017的工作Spindle Net[14]也利用了14個人體關鍵點來提取局部特徵。和論文[12]不同的是,Spindle Net並沒有用仿射變換來對齊局部圖像區域,而是直接利用這些關鍵點來摳出感興趣區域(Region of interest, ROI)。Spindle Net網絡如下圖所示,首先通過骨架關鍵點提取的網絡提取14個人體關鍵點,之後利用這些關鍵點提取7個人體結構ROI。網絡中所有提取特徵的CNN(橙色表示)參數都是共享的,這個CNN分成了線性的三個子網絡FEN-C1、FEN-C2、FEN-C3。對於輸入的一張行人圖片,有一個預訓練好的骨架關鍵點提取CNN(藍色表示)來獲得14個人體關鍵點,從而得到7個ROI區域,其中包括三個大區域(頭、上身、下身)和四個四肢小區域。這7個ROI區域和原始圖片進入同一個CNN網絡提取特徵。原始圖片經過完整的CNN得到一個全局特徵。三個大區域經過FEN-C2和FEN-C3子網絡得到三個局部特徵。四個四肢區域經過FEN-C3子網絡得到四個局部特徵。之後這8個特徵按照圖示的方式在不同的尺度進行聯結,最終得到一個融合全局特徵和多個尺度局部特徵的行人重識別特徵。

(4)論文[15]提出了一種全局-局部對齊特徵描述子(Global-Local-Alignment Deor, GLAD),來解決行人姿態變化的問題。與Spindle Net類似,GLAD利用提取的人體關鍵點把圖片分爲頭部、上身和下身三個部分。之後將整圖和三個局部圖片一起輸入到一個參數共享CNN網絡中,最後提取的特徵融合了全局和局部的特徵。爲了適應不同分辨率大小的圖片輸入,網絡利用全局平均池化(Global average pooling, GAP)來提取各自的特徵。和Spindle Net略微不同的是四個輸入圖片各自計算對應的損失,而不是融合爲一個特徵計算一個總的損失。

(5)以上所有的局部特徵對齊方法都需要一個額外的骨架關鍵點或者姿態估計的模型。而訓練一個可以達到實用程度的模型需要收集足夠多的訓練數據,這個代價是非常大的。爲了解決以上問題,AlignedReID[16]提出基於SP距離的自動對齊模型,在不需要額外信息的情況下來自動對齊局部特徵。而採用的方法就是動態對齊算法,或者也叫最短路徑距離。這個最短距離就是自動計算出的local distance。

這個local distance可以和任何global distance的方法結合起來,論文[15]選擇以TriHard loss作爲baseline實驗,最後整個網絡的結構如下圖所示,具體細節可以去看原論文。

4.基於視頻序列的ReID方法

目前單幀的ReID研究還是主流,因爲相對來說數據集比較小,哪怕一個單GPU的PC做一次實驗也不會花太長時間。但是通常單幀圖像的信息是有限的,因此有很多工作集中在利用視頻序列來進行行人重識別方法的研究[17-24]。基於視頻序列的方法最主要的不同點就是這類方法不僅考慮了圖像的內容信息,還考慮了幀與幀之間的運動信息等。

基於單幀圖像的方法主要思想是利用CNN來提取圖像的空間特徵,而基於視頻序列的方法主要思想是利用CNN 來提取空間特徵的同時利用遞歸循環網絡(Recurrent neural networks, RNN)來提取時序特徵。上圖是非常典型的思路,網絡輸入爲圖像序列。每張圖像都經過一個共享的CNN提取出圖像空間內容特徵,之後這些特徵向量被輸入到一個RNN網絡去提取最終的特徵。最終的特徵融合了單幀圖像的內容特徵和幀與幀之間的運動特徵。而這個特徵用於代替前面單幀方法的圖像特徵來訓練網絡。

視頻序列類的代表方法之一是累計運動背景網絡(Accumulative motion context network, AMOC)[23]。AMOC輸入的包括原始的圖像序列和提取的光流序列。通常提取光流信息需要用到傳統的光流提取算法,但是這些算法計算耗時,並且無法與深度學習網絡兼容。爲了能夠得到一個自動提取光流的網絡,作者首先訓練了一個運動信息網絡(Motion network, Moti Nets)。這個運動網絡輸入爲原始的圖像序列,標籤爲傳統方法提取的光流序列。如下圖所示,原始的圖像序列顯示在第一排,提取的光流序列顯示在第二排。網絡有三個光流預測的輸出,分別爲Pred1,Pred2,Pred3,這三個輸出能夠預測三個不同尺度的光流圖。最後網絡融合了三個尺度上的光流預測輸出來得到最終光流圖,預測的光流序列在第三排顯示。通過最小化預測光流圖和提取光流圖的誤差,網絡能夠提取出較準確的運動特徵。

AMOC的核心思想在於網絡除了要提取序列圖像的特徵,還要提取運動光流的運動特徵,其網絡結構圖如下圖所示。AMOC擁有空間信息網絡(Spatial network, Spat Nets)和運動信息網絡兩個子網絡。圖像序列的每一幀圖像都被輸入到Spat Nets來提取圖像的全局內容特徵。而相鄰的兩幀將會送到Moti Nets來提取光流圖特徵。之後空間特徵和光流特徵融合後輸入到一個RNN來提取時序特徵。通過AMOC網絡,每個圖像序列都能被提取出一個融合了內容信息、運動信息的特徵。網絡採用了分類損失和對比損失來訓練模型。融合了運動信息的序列圖像特徵能夠提高行人重識別的準確度。

論文[24]從另外一個角度展示了多幀序列彌補單幀信息不足的作用,目前大部分video based ReID方法還是不管三七二十一的把序列信息輸給網絡,讓網絡去自己學有用的信息,並沒有直觀的去解釋爲什麼多幀信息有用。而論文[24]則很明確地指出當單幀圖像遇到遮擋等情況的時候,可以用多幀的其他信息來彌補,直接誘導網絡去對圖片進行一個質量判斷,降低質量差的幀的重要度。

如上圖,文章認爲在遮擋較嚴重的情況下,如果用一般的pooling會造成attention map變差,遮擋區域的特徵會丟失很多。而利用論文的方法每幀進行一個質量判斷,就可以着重考慮那些比較完整的幾幀,使得attention map比較完整。而關鍵的實現就是利用一個pose estimation的網絡,論文叫做landmark detector。當landmark不完整的時候就證明存在遮擋,則圖片質量就會變差。之後pose feature map和global feature map都同時輸入到網絡,讓網絡對每幀進行一個權重判斷,給高質量幀打上高權重,然後對feature map進行一個線性疊加。思路比較簡單但是還是比較讓人信服的。

5.基於GAN造圖的ReID方法

ReID有一個非常大的問題就是數據獲取困難,截止CVPR18 deadline截稿之前,最大的ReID數據集也就小几千個ID,幾萬張圖片(序列假定只算一張)。因此在ICCV17 GAN造圖做ReID挖了第一個坑之後,就有大量GAN的工作湧現,尤其是在CVPR18 deadline截稿之後arxiv出現了好幾篇很好的paper。

論文[25]是第一篇用GAN做ReID的文章,發表在ICCV17會議,雖然論文比較簡單,但是作爲挖坑鼻祖引出一系列很好的工作。如下圖,這篇論文生成的圖像質量還不是很高,甚至可以用很慘來形容。另外一個問題就是由於圖像是隨機生成的,也就是說是沒有可以標註label可以用。爲了解決這個問題,論文提出一個標籤平滑的方法。實際操作也很簡單,就是把label vector每一個元素的值都取一樣,滿足加起來爲1。反正也看不出屬於哪個人,那就一碗水端平。生成的圖像作爲訓練數據加入到訓練之中,由於當時的baseline還不像現在這麼高,所以效果還挺明顯的,至少數據量多了過擬合能避免很多。

論文[26]是上一篇論文的加強版,來自同一個課題組。前一篇的GAN造圖還是隨機的,在這一篇中變成了可以控制的生成圖。ReID有個問題就是不同的攝像頭存在着bias,這個bias可能來自光線、角度等各個因素。爲了克服這個問題,論文使用GAN將一個攝像頭的圖片transfer到另外一個攝像頭。在GAN方面依然還是比較正常的應用,和前作不同的是這篇論文生成的圖是可以控制,也就是說ID是明確的。於是標籤平滑也做了改進,公式如下:

其中是ID的數量。是手動設置的平滑參數,當時就是正常的one-hot向量,不過由於是造的圖,所以希望label不要這麼hard,因此加入了一個平滑參數,實驗表明這樣做效果不錯。最終整體的網絡框架如下圖:

除了攝像頭的bias,ReID還有個問題就是數據集存在bias,這個bias很大一部分原因就是環境造成的。爲了克服這個bias,論文[27]使用GAN把一個數據集的行人遷移到另外一個數據集。爲了實現這個遷移,GAN的loss稍微設計了一下,一個是前景的絕對誤差loss,一個是正常的判別器loss。判別器loss是用來判斷生成的圖屬於哪個域,前景的loss是爲了保證行人前景儘可能逼真不變。這個前景mask使用PSPnet來得到的,效果如下圖。論文的另外一個貢獻就是提出了一個MSMT17數據集,是個挺大的數據集,希望能夠早日public出來。

ReID的其中一個難點就是姿態的不同,爲了克服這個問題論文[28]使用GAN造出了一系列標準的姿態圖片。論文總共提取了8個pose,這個8個pose基本涵蓋了各個角度。每一張圖片都生成這樣標準的8個pose,那麼pose不同的問題就解決。最終用這些圖片的feature進行一個average pooling得到最終的feature,這個feature融合了各個pose的信息,很好地解決的pose bias問題。無論從生成圖還是從實驗的結果來看,這個工作都是很不錯的。這個工作把single query做成了multi query,但是你沒法反駁,因爲所有的圖都是GAN生成的。除了生成這些圖需要額外的時間開銷以外,並沒有利用額外的數據信息。當然這個工作也需要一個預訓練的pose estimation網絡來進行pose提取。

總的來說,GAN造圖都是爲了從某個角度上解決ReID的困難,缺啥就讓GAN來補啥,不得不說GAN還真是一個強大的東西。

後言:以上就是基於深度學習的行人重識別研究綜述,選取了部分代表性的論文,希望能夠幫助剛進入這個領域的人快速瞭解近幾年的工作。當然還有很多優秀的工作沒有放進來,ICCV17的ReID文章就有十幾篇。這幾年加起來應該有上百篇相關文章,包括一些無監督、半監督、cross-domain等工作都沒有提到,實在精力和能力有限。

 

 

參考文獻

[1] Mengyue Geng, Yaowei Wang, Tao Xiang, Yonghong Tian. Deep transfer learning for person reidentification[J]. arXiv preprint arXiv:1611.05244, 2016.

[2] Yutian Lin, Liang Zheng, Zhedong Zheng, YuWu, Yi Yang. Improving person re-identification by attribute and identity learning[J]. arXiv preprint arXiv:1703.07220, 2017.

[3] Liang Zheng, Yi Yang, Alexander G Hauptmann. Person re-identification: Past, present and future[J]. arXiv preprint arXiv:1610.02984, 2016.

[4] Tetsu Matsukawa, Einoshin Suzuki. Person re-identification using cnn features learned from combination of attributes[C]//Pattern Recognition (ICPR), 2016 23rd International Conference on. IEEE, 2016:2428–2433.

[5] Rahul Rama Varior, Mrinal Haloi, Gang Wang. Gated siamese convolutional neural network architecture for human re-identification[C]//European Conference on Computer Vision. Springer, 2016:791-808.

[6] Florian Schroff, Dmitry Kalenichenko, James Philbin. Facenet: A unified embedding for face recognition and clustering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2015:815-823.

[7] Hao Liu, Jiashi Feng, Meibin Qi, Jianguo Jiang, Shuicheng Yan. End-to-end comparative attention networks for person re-identification[J]. IEEE Transactions on Image Processing, 2017.

[8] De Cheng, Yihong Gong, Sanping Zhou, Jinjun Wang, Nanning Zheng. Person re-identification by multichannel parts-based cnn with improved triplet loss function[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016:1335-1344.

[9] Weihua Chen, Xiaotang Chen, Jianguo Zhang, Kaiqi Huang. Beyond triplet loss: a deep quadruplet network for person re-identification[J]. arXiv preprint arXiv:1704.01719, 2017.

[10] Alexander Hermans, Lucas Beyer, Bastian Leibe. In defense of the triplet loss for person reidentification[J]. arXiv preprint arXiv:1703.07737, 2017

[11] Xiao Q, Luo H, Zhang C. Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification[J]. 2017.

[12] Rahul Rama Varior, Bing Shuai, Jiwen Lu, Dong Xu, Gang Wang. A siamese long short-term memory architecture for human re-identification[C]//European Conference on Computer Vision. Springer, 2016:135–153.

[13] Liang Zheng, Yujia Huang, Huchuan Lu, Yi Yang. Pose invariant embedding for deep person reidentification[J]. arXiv preprint arXiv:1701.07732, 2017.

[14] Haiyu Zhao, Maoqing Tian, Shuyang Sun, Jing Shao, Junjie Yan, Shuai Yi, Xiaogang Wang, Xiaoou Tang. Spindle net: Person re-identification with human body region guided feature decomposition and fusion[C]. CVPR, 2017.

[15] Longhui Wei, Shiliang Zhang, Hantao Yao, Wen Gao, Qi Tian. Glad: Global-local-alignment deor for pedestrian retrieval[J]. arXiv preprint arXiv:1709.04329, 2017.

[16] Zhang, X., Luo, H., Fan, X., Xiang, W., Sun, Y., Xiao, Q., ... & Sun, J. (2017). AlignedReID: Surpassing Human-Level Performance in Person Re-Identification. arXiv preprint arXiv:1711.08184.

[17] Taiqing Wang, Shaogang Gong, Xiatian Zhu, Shengjin Wang. Person re-identification by discriminative selection in video ranking[J]. IEEE transactions on pattern analysis and machine intelligence, 2016.38(12):2501–2514.

[18] Dongyu Zhang, Wenxi Wu, Hui Cheng, Ruimao Zhang, Zhenjiang Dong, Zhaoquan Cai. Image-to-video person re-identification with temporally memorized similarity learning[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017.

[19] Jinjie You, Ancong Wu, Xiang Li, Wei-Shi Zheng. Top-push video-based person reidentification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:1345–1353.

[20] Xiaolong Ma, Xiatian Zhu, Shaogang Gong, Xudong Xie, Jianming Hu, Kin-Man Lam, Yisheng Zhong. Person re-identification by unsupervised video matching[J]. Pattern Recognition, 2017. 65:197–210.

[21] Niall McLaughlin, Jesus Martinez del Rincon, Paul Miller. Recurrent convolutional network for videobased person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016:1325–1334.

[22] Rui Zhao, Wanli Oyang, Xiaogang Wang. Person re-identification by saliency learning[J]. IEEE transactions on pattern analysis and machine intelligence, 2017. 39(2):356–370.

[23] Hao Liu, Zequn Jie, Karlekar Jayashree, Meibin Qi, Jianguo Jiang, Shuicheng Yan, Jiashi Feng. Video based person re-identification with accumulative motion context[J]. arXiv preprint arXiv:1701.00193,2017.

[24] Song G, Leng B, Liu Y, et al. Region-based Quality Estimation Network for Large-scale Person Re-identification[J]. arXiv preprint arXiv:1711.08766, 2017.

[25] Zheng Z, Zheng L, Yang Y. Unlabeled samples generated by gan improve the person re-identification baseline in vitro[J]. arXiv preprint arXiv:1701.07717, 2017.

[26] Zhong Z, Zheng L, Zheng Z, et al. Camera Style Adaptation for Person Re-identification[J]. arXiv preprint arXiv:1711.10295, 2017.

[27] Wei L, Zhang S, Gao W, et al. Person Transfer GAN to Bridge Domain Gap for Person Re-Identification[J]. arXiv preprint arXiv:1711.08565, 2017.

[28] Qian X, Fu Y, Wang W, et al. Pose-Normalized Image Generation for Person Re-identification[J]. arXiv preprint arXiv:1712.02225, 2017.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章