Domain Adaptation through Synthesis for Unsupervised Person Re-identification 論文筆記

這篇文章來自ECCV2018. 主要針對無監督的行人再識別任務,首先用3D引擎和環境渲染技術構建了一個多光照條件的虛擬行人數據集,接着用該合成數據集和其它大型真實數據集合並,共同預訓練了一個模型。由於涵蓋了各種光照情況,該模型具有良好的泛化性能。爲了進一步提升無監督性能,該文章提出了一種域自適應技術(有約束的cycleGAN),選擇和目標域的光照情況最相似的那些合成圖像,遷移到目標域上,再利用遷移後的合成圖像對預訓練好的模型進行精調,最終大幅提升了reid的性能,超過其它無監督方法。

一. 摘要

跨監控攝像頭的劇烈光照變化會使得行人再識別任務變得非常困難。當前的大型reid數據集有着非常多的行人訓練樣本,但是缺乏光照的多樣性。因此,如果遇到沒有見過的光照條件,一個訓練好的模型需要進行精調才能變得有效。爲了解決這個問題,本文引入了一個包含了上百種光照條件的合成數據集。具體地說,我們使用了100個虛擬人物,利用多個HDR環境圖對其進行照明,從而準確建模出真實的室內和戶外光照。爲了在沒見過的光照條件下取得更好的性能,我們提出一種新的域自適應技術,以一種完全無監督的方式利用了我們的合成數據並進行了精調。我們的方法和其它半監督和無監督方法相比,取得了很高的準確率,可以和有監督方法媲美。

 

二. 貢獻

1.提出了一個新數據集,它包含了100個虛擬人物,並使用了140個HDR環境圖進行渲染。我們展示了即使不經過fine-tuning,這個數據集也能夠增強訓練好的模型的泛化性能。

2.我們使用了一種新的三步式的域自適應技術,以無監督的方式提升了reid的性能。具體的說,我們使用了循環一致性遷移(cycleGAN),並增加了一個新的正則項以保證遷移前後行人身份信息不丟失。針對某一目標域遷移後的合成圖像被用來fine-tune模型。

 

三. SyRI Dataset

要收集和標註一個涵蓋所有光照條件的reid數據集的成本過高,因此本文提出採用合成數據集。構建這樣一個數據集的難點在於如何創造出真實的光照條件的真實場景。我們使用高動態範圍(HDR)環境圖,它們可以看作是360度的真實世界的全景圖,包含了準確的光照信息,能夠被用來重新照亮虛擬對象並提供現實背景。該數據集的部分樣本如下圖所示。

1. Environment maps

如下圖所示,一共採集了140張HDR環境圖。具體的採集方法是,對每個場景,用魚眼鏡頭的Canon相機用不同的曝光(包圍式曝光,bracketed exposures)和不同的角度拍攝多張圖像,然後用某商業軟件合成,最後得到一張360度的HDR環境圖。

2. 3D virtual humans and animations

使用Adobe Fuse CC這一軟件來製作虛擬的人物3D模型。如下圖。

3. Rendering

使用Unreal Engine 4來實現實時渲染速度。對這方面不太瞭解,具體做法查閱原文。

 

四. 方法

1. Joint learning of re-identification network

首先,研究如何學習到泛化能力強的特徵表示用於reid任務。具體做法是融合所有域的圖像構成一個大的數據集(CUHK03 + DukeMTMC4ReID + SyRI),用於訓練CNN模型。其實就是把兩個真實reid數據集和提出的合成數據集進行融合,然後從頭開始訓練模型。文中提到的一點是,爲了學習到強判別性的泛化能力強的特徵,訓練的行人類別數必須遠大於最終特徵向量的維度,比方說,訓練集包含了3000+個類別,而最後的特徵層維度固定爲256.

實驗驗證了合成數據集的確對提升泛化性能有幫助,但是和在目標域fine-tuned過的模型比起來還有很大的性能差距。文中認爲有兩個原因:(1)我們的數據集沒有涵蓋所有可能的光照條件;(2)合成圖像和真實圖像的分佈存在差異。這啓發我們使用域自適應方法來解決,也就是讓合成圖像看起來儘可能真實,並且最小化源域和目標域的光照條件的差異。

2. Domain adaptation

該方法分爲三個部分:光照推斷、域遷移、精調。具體流程是,給定來自目標域的沒有標籤的輸入圖像,我們首先通過光照推斷器找出最接近於目標域光照情況的合成域S_k*. 然後,來自合成域S_k*的圖像通過cycleGAN遷移到目標域,這個過程是無監督的。最後,使用遷移後的合成圖像(具有身份標籤)對reid網絡進行精調。

Illumination inference 這一步的目的是在所有合成域中找到和目標域光照情況最接近的那種合成域S_k*,具體做法是,訓練一個CNN(Resnet-18)模型來對合成數據集中的140種環境渲染圖進行分類。訓練好這個光照推斷模型後,我們就可以將目標域的圖像輸入到這個模型中,出現次數最多的那個輸出對應的環境渲染圖即爲最接近的源域光照。

Domain translation 使用cycleGAN,比較火的GAN模型,具體可查閱相關文獻。

Semantic Shift Regularization 由於cycleGAN的loss沒有對遷移前後的顏色分佈進行約束,這可能會產生語義的偏移,例如行人身上的衣服顏色發生變化。爲了避免這種情況,引入了兩個新的約束項,如下所示。第一個id loss爲了保證遷移前後目標域圖像的變化不大。第二個mask loss爲了保證行人圖像前景儘可能保持不變,而背景可以自由變化。

最終的loss如下:

Fine-Tuning 將遷移後的合成圖像用於精調reid網絡。實際上,上面的域自適應操作是對每個攝像頭進行的。即爲每個攝像頭都找到最接近的光照條件,再遷移合成圖像到各個camera domain上。

最後的遷移效果如下圖所示。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章