論文《Adversarial Binary Coding for Efficient Person Re-identification》翻譯&筆記

論文鏈接:https://arxiv.org/pdf/1803.10914.pdf

摘要:行人重新識別(ReID)旨在匹配不同視圖/場景的人。 除了準確性之外,由於使用大規模數據的苛刻應用,匹配效率受到越來越多的關注。 已經提出了幾種基於二進制編碼的方法用於有效的ReID,其可以學習將高維特徵映射到緊湊二進制代碼的投影,或者通過簡單地插入具有類似tanh的激活的附加完全連接層來直接採用深度神經網絡。然而,前一種方法需要耗時的手工特徵提取和複雜(離散)優化; 由於直接的激活功能,後者極大地缺乏必要的判別信息。 在本文中,我們提出了一個簡單而有效的框架,有效的ReID靈感來自對抗性學習的最新進展。 具體而言,提議的對抗性二進制編碼(ABC)框架不是學習顯式投影或添加完全連接的映射層,而是隱含且有效地指導二進制代碼的提取。通過爲ABC配備用於ReID任務的深度三元網絡,可以進一步增強所提取代碼的可辨別性。 更重要的是,ABC和三元組網絡以端到端的方式同時進行優化。 對三個大規模ReID基準測試的廣泛實驗證明了我們的方法優於最先進的方法。

1、Introduction

        給定行人的一個或多個圖像,行人重新識別(ReID)旨在從在不同場景和各種視點中捕獲的大量圖像中檢索具有相同身份的人。 ReID支持各種潛在的應用程序,例如長期跨場景跟蹤和刑事檢索。 然而,由於不同相機的姿勢,視點和照明的顯着變化,該任務仍然具有挑戰性。

        已經提出了許多ReID方法,其中大多數採用高維(通常是數千或更多)特徵[1-6],以便用各種線索(例如顏色,紋理和空間時間線索)全面地表示人。 這直接爲隨後的相似性測量(例如度量學習)帶來了更高的計算複雜度。 此外,目前的大規模ReID基準測試包含許多身份和攝像頭來模擬真實場景,使現有的最先進的ReID方法在計算上難以承受[7]。 因此,儘管匹配精度有了顯着的提高,但計算和存儲器要求同時變得更具挑戰性。

Fig.1. 用於有效ReID的不同二進制編碼方案。 我們的方法避免了耗時的投影學習,並通過對抗性訓練以直觀的方式產生高質量的二進制代碼,而不使用類似於tanh的激活。

        二進制編碼(即散列),被[8,9]採用,將高維特徵映射到緊湊的二進制代碼,並有效地測量低維漢明空間中的相似性。 它是高效ReID的有前途的解決方案之一。 基於散列的ReID方法可以主要分爲兩類:

1)圖1(a)所示的方法學習多個投影矩陣以同時將原始特徵映射到低維和判別漢明空間。 然而,其目標通常是若干子任務的非凸聯合函數(例如,保持相似性的映射和二進制變換),這需要複雜函數的顯式設計和耗時的非凸(離散)優化。 內存存儲和計算效率是嚴重的問題,尤其是在處理大規模數據時。

2)圖1(b)顯示了一種基於深度神經網絡的方法,與傳統方法相比,通過使用小批量學習算法和高級GPU,能夠更有效地處理大規模數據。 這裏的二進制代碼是通過在網絡末端插入散列層來生成的。 然而,散列層只是一個完全連接的層,然後是類似tanh的激活,以強制二進制形式的輸出。 這種簡單的方案很難在散列的重要原則(例如平衡性和獨立性[10])下限制輸出,以獲得高質量的二進制代碼。 此外,散列層的輸出傾向於位於類似tanh函數的近似線性部分中,以保持可辨別性。 因此,通過符號函數直接對輸出進行二值化將丟失判別信息。

        爲解決上述問題,本文提出了一種統一的端到端深度學習框架,用於高效的ReID,旨在共同學習判別特徵表示,準確的相似性度量和隱式二元變換。 特別地,我們通過採用生成性對抗網絡(GAN)[11,12]來建議對抗性二進制編碼(ABC),以將特徵規則化爲二進制形式而不損失可辨性(參見圖2)。 對抗性學習不是明確的預測,而是使目標分佈(以二進制形式)成爲“專家”,隱含地指導網絡在相同分佈下生成樣本。 具體來說,我們採用伯努利分佈來指導CNN生成離散特徵。 受益於伯努利分佈的性質,我們的ABC可以生成符合散列的重要原則的高質量判別代碼,例如:平衡性。如圖1(c)所示,我們的策略避免了耗時的顯式投影學習和低質量的代碼,具有簡單的tanh式激活。 更重要的是,我們的ABC可以靈活地嵌入到任何相似性迴歸網絡(例如深三元網絡)中,並以端到端的方式與網絡共同優化。 本文的主要貢獻概括如下:

1)我們提出了一種基於深層對抗性學習的二元轉換策略。 所提出的架構由用於特徵提取的CNN和用於區分實值和二進制特徵的鑑別器網絡組成,其中CNN被引導以二進制形式生成特徵以混淆鑑別器。 因此,這些特徵被隱式地規則化爲二進制代碼。
2)無縫容納上述對抗性二進制編碼模塊的端到端深度神經網絡是爲高效的ReID而構建的。 我們聯合優化二元變換和相似性測量。 因此,在特徵二值化期間很大程度上保留了辨別信息。
3)在三個大規模ReID基準測試(即CUHK03 [13],Market-1501 [14]和DukeMTMC-reID [15])上的廣泛實驗清楚地證明了我們的框架在準確性和效率方面的優越性, 其他基於二進制編碼和最先進的ReID方法。

2、 Related work

2.1 Person re-identification: 傳統方法通常爲ReID提出某些特徵學習算法,包括低級顏色特徵和局部漸變,以及高級特徵。由於深度神經網絡的突破性能,越來越多地提出基於深度學習的ReID方法。 例如, 暹羅CNN(siamese CNNs)和三聯CNN廣泛用於相似性測量。最近,出現了幾種基於二進制編碼的方法處理ReID中存在的高計算和存儲成本問題。

2.2 Generative adversarial nets:GAN提供了一種將隨機變量從簡單分佈映射到某個複雜分佈的方法,並已廣泛用於圖像生成,風格轉移和潛在特徵學習。 爲了穩定和量化GAN的訓練,提出了一項名爲Wasserstein GAN(WGAN)的改進,並在其中進行了改進。 最近,GAN也用於圖像檢索問題。在[44]中,採用GAN來區分合成圖像和真實圖像,目標是提高二進制代碼的可辨性。 GAN也被用來增強[45]中發生器的中間表示。 但是,這些各種研究仍然簡單地採用tanh式激活進行二值化。據我們所知,我們的ABC是第一部直觀採用的工作對抗性學習的精神,爲高效的ReID執行二進制轉換。

3 、Approach

        擬議的框架將高維實值特徵轉換爲緊湊二進制代碼主要基於對抗性學習。 在下面的,我們首先簡要回顧3.1節中GAN的原理。 然後,我們介紹對抗二進制編碼(ABC)詳見3.2節。 在3.3節中,我們提出具有三元網絡的聯合端到端框架,以實現高效的ReID。

3.1 A Brief Review of GANs

        GAN難以訓練,因此生成器可能無法生成無論是真實的還是多樣的樣品。 Arjovsky等在[42,46]爲解決這個問題引入WGAN,而WGAN則優化了Wasserstein損失Jensen-Shannon散度評估相似性。基於Wasserstein-1距離提供更強的梯度穩定性(也稱爲Earth-Mover(EM)距離)。 而且,WGAN提供了有意義的學習曲線對調試和超參數搜索很有用。 因此,在這項工作中,我們採用WGAN的策略進行對抗性學習。(關於WGAN 更多學習可參考https://zhuanlan.zhihu.com/p/25071913)

3.2 Adversarial Binary Coding

        我們的二進制編碼方案直觀地受到GAN的啓發。並非制定明確的散列函數(即學習顯式投影),我們隱含地引導深度神經網絡直接學習數據從原始分佈(即圖像)到GAN框架中的二元向量分佈的轉換。 在本節中,我們將重點介紹高效的端到端ReID框架中的二進制轉換模塊。 如何保持語義/判別力轉換過程中的信息在第3.3節中解釋。

        所提出的對抗性二進制編碼框架如圖2所示。特徵提取器可以是任何CNN架構(在這項工作中採用ResNet-50 [47]),最終將圖像表示爲特徵向量。 與此同時,二進制代碼採樣器對二進制向量的每個位執行隨機採樣。 爲了滿足[10]中提到的有效二進制編碼原理,我們從伯努利分佈中抽樣,基於此分佈的概率爲50%對於每個比特爲0或1,並且不同的比特彼此獨立。期望鑑別器將二元向量分類爲正樣本,將實值特徵向量作爲負樣本。 因此,提取器訓練使用(2)中的Wasserstein損失(W損失)生成在相同的正樣本分佈下的特徵向量。

fig. 2.  對抗二進制編碼(ABC)框架的圖示。 鑑別者網絡接收採樣的二進制代碼作爲正樣本並提取實值作爲負樣本的特徵。 特徵提取器網絡和鑑別器網絡在Wasserstein損失(W損失)下聯合優化,這樣提取器就被迫以二進制形式生成特徵。

        正式地,我們將一批n個圖像I = {I1,I2,...。。 ,ln}表示爲位於分佈pI下。 特徵提取器表示爲映射函數f(I)它在GAN( 編碼分佈爲q(Z | I)其中Z = {z1,z2,...。。 ,zn}表示提取的特徵向量)中起着生成器G的作用。 q(Z | I)旨在從原始分佈pI轉換數據到目標分佈q:

                                            

        由於二項分佈相當於具有相同概率的多個伯努利樣本,因此提取器基本上通過使用Wasserstein距離將後驗q與先前二項分佈匹配來正則化。

        如上所述,我們使用ResNet-50 [47]作爲骨幹模型,其中採用整流線性單元(ReLU)作爲激活功能。因此,由於ReLU的非負輸出,我們用{0,1}而不是{-1,1}表示二進制代碼的每一位。我們進一步發現,如果直接輸入特徵向量和二進制代碼到鑑別器和相似性迴歸損失,而沒有歸一化 (例如圖3中的三元損失),由於預期的0或1輸出與學習算法之間的矛盾,性能將嚴重惡化。更具體地,神經網絡的權重通常被初始化爲非常小的值(遠小於1)。同時,學習算法仔細控制權重的比例(例如通過學習速率和體重衰減機制)以避免梯度消失或在損失函數下爆炸。因此,網絡提取的特徵也將非常接近0,因爲它們與權重共享相同的比例。相反,我們的ABC期望輸出功能的每個維度被約束在0或1附近。結果,我們將遇到不穩定優化過程如果不採用任何規範化。

       爲了解決上述問題,我們通過l2歸一化將輸出特徵向量和採樣二進制代碼標準化爲相同的比例。 至於實值特徵,我們採用標準的l2-Norm操作。 就二進制代碼而言,我們具體如下進行歸一化。 給定一批隨機二進制向量{Bi},其中Bi∈{0,1}二進制向量可以直接歸一化如下

                                            

        然而,每個向量的l2歸一化可能是不同的,因爲每個二進制向量可能包含不同數量比特的1。換句話說,歸一化向量{Bi~}中的非零條目的值將是不同的。 這導致不穩定的訓練過程,其中損失無法明確指導優化。 因此,在本研究中,我們採用伯努利分佈的期望來計算二元向量的l2-範數。 具體而言,我們計算均勻歸一化因子λ:

                                               

3.3 Triplet Loss based Efficient ReID Framework

        爲了不僅將特徵轉換爲二進制形式,還測量二進制代碼之間的相似性,ABC進一步嵌入到三元組網絡中以確保所學習的二進制代碼的可辨別性。以下爲三元組網絡的損失函數L:

        

其中xi,xj和yk是輸入特徵,α是正負對之間的施加距離邊界,d(·)測量相似距離。 xi和xj是來自同一類的特徵(在ReID中具有相同的標識),而yk來自另一個類(不同的標識)。 三元組損失迫使負對中的樣本之間的距離大於正對中的樣本之間的距離。 因此,它廣泛用於旨在檢索具有高相關性的數據的任務中。

Fig.3.基於三元組損失的對抗二進制編碼嵌入高效ReID框架的圖示。 特徵提取網絡是預先訓練的ResNet-50模型。 首先通過訓練圖像上的交叉熵誤差(CCE)損失對網絡進行微調,然後通過triplet損失和Wasserstein損失進行訓練,以生成有區別的二元特徵。

        高效ReID的總體框架如圖3所示。採用ImageNet [49]預訓練的ResNet-50作爲骨幹模型,其中固定平均池化層被自適應平均池替換,以適應不同的輸入大小,然後是特徵嵌入(完全連接)層,以將特徵尺寸減少到預期長度。 在訓練開始時,我們通過解決傳統的分類問題來微調具有交叉熵誤差(CEE)損失的行人圖像上的模型,即每個類包含一個人的圖像。 因爲對小型數據集上的大型圖像集預先訓練的模型進行微調已經被驗證爲知識轉移的有效方法。 與從頭開始的訓練相比,這對於具有較少數據的深度網絡而言更有助於更容易地找到最佳參數並且更快地達到收斂。注意,在該階段中,最後一層的輸出未通過l2範數歸一化,就像用於圖像分類的傳統CNN一樣。 之後,我們通過聯合優化用於二進制編碼的Wasserstein損失和用於相似性測量的三元損失來訓練具有歸一化的模型,如圖3所示。 特別是對於三聯批的組成,我們隨機選擇n個不同的人,並從每個人的不同視圖中挑選兩個圖像作爲錨和陽性樣本。 然後我們隨機選擇不同於錨的人的圖像作爲每個三聯體中的陰性樣本。(注:關於微調的更多知識可以查看:https://blog.csdn.net/hlx371240/article/details/40398657

        特別是,在訓練階段,我們採用歐幾里德距離來測量三元損失的實值特徵之間的相似性,而不進行二值化。 因爲歐幾里德距離提供比漢明距離更明顯更穩定的梯度,同時獲得等效距離測量結果作爲漢明距離。 通過這種方式,三元損失側重於減少類內距離並根據實值特徵擴大類間距離,而Wasserstein損失側重於實值特徵的二元變換。

        在測試階段,圖像被髮送到訓練有素的CNN以獲得實值特徵,其中每個條目應非常接近二進制值,最後我們將特徵二值化如下:

                                        

其中zj是實值特徵的第j個條目的值zi = [z1 ,... ,zm]∈R由f函數提取,並且bj∈{0,1}是二值化後zj的二進制位。查詢和圖集之間的漢明距離進一步使用極快的XOR運算來計算相似度。

4、 Experiments

我們在三個大規模ReID數據集上評估我們的方法的性能:CUHK03 [13],Market-1501 [14]和DukeMTMC-reID [15,50]。 我們的實驗目標主要是回答以下三個研究問題:

問題1:與實際值相比,我們學習的二進制代碼的計算和存儲效率如何? (4.2節) 

問題2:與基於二進制編碼的ReID方法(4.3節)和最先進的非散列ReID方法(第4.4節)相比,我們的方法如何執行?

問題3:我們的性能如何隨着不同的配置而變化(例如,不同的相似性網絡,有和沒有l2歸一化 /微調)?(4.5節)

4.1 Datasets and Settings

Market-1501  在六個攝像機下包含32,668個自動檢測到的128×64個包圍框,包括1,501個行人,並提供固定的評估協議。 在實驗中,訓練迭代的次數設置爲8,000,並且三元組損失的邊緣初始化爲0.2並且在1,000次迭代之後增加到0.3並且在4,000次迭代之後增加到0.4。

        我們基於PyTorch深度學習庫實現了我們的框架。硬件環境是一臺配備Intel Core CPU(3.4GHz),32 GB內存和NVIDIA GTX TITAN X GPU的PC。 對於所有數據集,圖像被水平翻轉以增強訓練樣本。 批量大小在訓練前階段設置爲64,在隨後的訓練中更改爲128。 實驗中提取器的學習率初始化爲0.001,並隨着迭代次數降低至0.0001。 鑑別器的學習率始終設置爲0.01。爲了確保穩定性,我們在每20次全局優化迭代後單獨更新GAN 10迭代。 每個GAN迭代包括5次鑑別器更新迭代和1次生成器(提取器)更新迭代。 在實驗中,如果代碼可公開獲得,我們會重新運行比較方法,以評估其效率以進行公平比較。

4.2 Evaluation of Computation and Storage Efficiency

        我們首先用不同的比特長度來評估我們方法的效率,因爲較短的二進制代碼更有效但可能導致精度下降,而較長的代碼則相反。檢索查詢的時間(Q.時間)和存儲圖庫功能的內存(Mem)如圖4所示。可以看出,二進制代碼消耗的查詢時間和內存遠小於實值特徵。與具有比特長度的二進制特徵相比,實值特徵的匹配時間和存儲器顯着增加得更快。此外,我們比較表1中實值和二進制特徵的秩-1匹配率。從表的最後兩行可以看出,具有更多位(例如1024或2048)的二值化特徵僅比相應的實值特徵稍差,證明了具有足夠容量的,使用我們的方法通過二元特徵很好地保留了判別信息。 值得注意的是,即使使用2048位,我們的二進制特徵也需要比實值對應物少得多的查詢時間和內存。

Fig.4 根據不同的比特長度比較實值/二進制特徵的匹配時間和存儲器成本

        除了匹配時間之外,還應考慮特徵提取所消耗的時間(F.時間)。 隨着ReID中的數據規模變大,有必要在短時間內處理大量查詢。 因此,我們比較了通過兩種最先進的方法提取我們方法的特徵所消耗的時間,即局部最大發生表示(LOMO)[2]和分層高斯描述符(GOG)[3],它們被傳統的ReID方法廣泛採用。如表2所示,我們的方法比LOMO和GOG更快地提取特徵。

        此外,我們在圖5中提供了2048位長的框架的訓練損失。我們可以觀察到,隨着訓練的進行,與GAN相對應的損失穩定下降。 Market1501的三元虧損在每個邊界值都得到了很好的優化。 CUHK03和DukeMTMC-reID上的三元損失在某些邊際值處變爲波動,但是在訓練結束時損失可以達到穩定狀態。

4.3 Comparison with Binary Coding based Methods

在這裏,我們將我們的框架與基於以下最先進的二進制編碼(散列)的ReID方法進行比較:1)深度散列:深度規範化相似性比較散列(DRSCH)[33],基於散列的深度語義排序。。。。

4.4 Comparison with the State-of-the-Art Methods

。。。顯然,我們的框架不僅優於許多現有的非散列方法,而且在匹配效率方面也取得了顯着的優勢。 如果圖庫集包含更多樣本,則優勢更加突出。 例如,ABC的查詢時間至少比Market-1501上的非哈希方法快幾十倍,其中有19,732個圖庫樣本。 有幾種方法採用LOMO,它將圖像表示爲26960-dim實值特徵。 不同的是,我們的方法只是將圖像表示爲2048位二進制代碼,這需要更少的內存。

4.5 Effects of Different Network Settings

        在本節中,我們將建議的ABC嵌入到不同的相似性測量網絡中,並評估不同設置下的性能。 我們首先評估兩種廣泛用於測量相似性的網絡,即Siamese網絡[27,28]和三元網絡。 Siamese網絡接收一對圖像,如果它們來自同一類,則最小化圖像之間的距離,如果它們具有不同的標籤,則最大化距離。 在我們的實驗中評估的Siamese網絡採用與三元網絡相同的ResNet-50骨幹模型,並使用收縮損失來測量相似性。

        從表8中可以看出,採用Siamese網絡的性能比三元網絡差。 這是因爲Siamese網絡的損失太嚴格了,即,強制將一個身份的圖像投影到子空間中的單個點上。 不同的是,三元損失允許來自一個人的圖像位於歧管上,同時在不同人的圖像之間實施更大的距離。 我們還可以觀察到,將ABC嵌入三元組網絡可以獲得比Siamese網絡更好的結果。

        如3.2節所述,我們將生成的特徵和二進制代碼規範化爲相同的比例,以消除兩個模塊之間的衝突。 在這裏,我們還比較了有和沒有l2標準化的網絡。 從表8中可以看出,在歸一化之後性能顯着提高。

        此外,我們評估微調對三個數據集的影響。 圖6顯示微調的三元損失比沒有微調的三元損失快。 由於所使用的ResNet-50網絡在ImageNet上經過預先培訓,因此它已經捕獲了各種有用的圖像功能。 微調網絡進一步使得能夠比從頭開始訓練網絡更有效地學習專門用於人物表示的特徵。

5 、Conclusion

        在這項工作中,提出了用於有效行人重新識別的對抗性二進制編碼(ABC)框架,其可以從行人圖像生成有區別且有效的二進制特徵。 具體來說,我們的ABC訓練了一個鑑別器網絡來區分實值特徵和二元特徵,以指導特徵提取器網絡在Wasserstein損失下生成二進制形式的特徵。 ABC框架進一步嵌入到深三元網絡中,以保留ReID任務的二進制特徵的語義信息。對三個大規模ReID數據集的大量實驗表明,我們的方法優於最先進的基於散列的ReID方法,並且與最先進的非散列ReID方法相比具有競爭力,同時顯著減少了時間和內存 成本。 考慮到三元網絡已被最近提出的其他網絡架構所取代,未來這項工作的一個可能的改進是探索ABC框架和其他更復雜的相似性測量框架的組合。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章