PTGAN翻譯

 摘 要

        儘管人再識別(ReID)的表現已經得到顯着提升,但真實場景中的許多具有挑戰性的問題還沒有得到充分研究,例如,複雜的場景和光照變化,視點和姿態變化以及大量身份相機網絡。爲了便於研究克服這些問題,本文提供了一個新的數據集,稱爲MSMT17,它具有許多重要特性,例如:

        1)原始視頻由部署在室內和室外場景中的15攝像機網絡拍攝; 

        2)視頻封面很長一段時間,並且呈現複雜的光照變化;

        3)它包含當前最多數量的註釋標識,即4,101個標識和126,441個包圍盒。

我們還觀察到,數據集之間通常存在領域差距,在不同數據集上進行訓練和測試時,會導致嚴重的性能下降。這導致可用的培訓數據無法有效地用於新的測試領域。爲了減輕標註新訓練樣本的昂貴成本,我們提出了一個人際轉移生成對抗網絡(PTGAN)來彌合領域差距。綜合實驗表明,PTGAN可以大大縮小領域差距。

1. 介 紹

        人員重再識別(ReID)目標是匹配並返回來自攝像機網絡收集的大型圖集的探測者圖像。 由於ReID在安全和監控方面的重要應用,引起了學術界和工業界的廣泛關注。 由於深度學習的發展和許多數據集的可用性,人員ReID性能得到顯着提升。 例如,Market1501 上單一查詢的Rank-1準確率已從43.8%提高到89.9%。 CUHK03 標記數據集的Rank-1準確率從19.9%提高到88.5%。 第二部分將詳細介紹當前的方法。


圖1:CUHK03和PRID之間的域內差距示意圖。 顯然,CUHK03和PRID呈現不同的風格,例如明顯的照明,分辨率,人種,季節,背景等,導致在CUHK03上訓練和在PRID上測試時準確度低。

        儘管當前ReID數據集的表現令人滿意,但仍然存在一些阻礙人員ReID應用的未解決問題。 首先,現有的公共數據集不同於真實場景中收集的數據。 例如,當前數據集包含有限數量的身份或在受限環境下進行。 目前最大的DukeMMC-reID [40]包含少於2,000個身份,並呈現簡單的照明條件。 這些限制簡化了人員的ReID任務並有助於實現高精度。 在實際場景中,人員ReID通常在室內和室外場景中部署的攝像機網絡中執行,並處理長時間拍攝的視頻。 因此,真正的應用程序必須應對挑戰,如大量身份和複雜的照明和場景變化,目前的算法可能無法解決。

        我們認爲的另一個挑戰是,在不同人員ReID數據集之間存在領域差距,即對不同人員ReID數據集的訓練和測試導致嚴重的性能下降。 例如,在PRID [10]上測試時,在CUHK03 [20]上訓練的模型只能達到2.0%的Rank-1精度。 如圖1所示,領域差距可能是由不同的光照條件,分辨率,人種,季節,背景等原因造成的。這個挑戰也阻礙了人ReID的應用,因爲可用的訓練樣本不可能 有效地用於新的測試領域。 由於註釋人員ID標籤的代價很高,因此需要進行研究,以縮小或消除領域差距。

        爲了便於在現實場景中對應用進行研究,我們收集了一個新的Multi-Scene MultiTime人員ReID數據集(MSMT17)。 與現有數據集不同,MSMT17被收集並註釋以提供幾項新功能。 1)原始視頻由部署在室內和室外場景中的15攝像機網絡拍攝。 因此,它呈現出複雜的場景轉換和背景。 2)視頻覆蓋很長一段時間,例如每月四天,每天早上,中午和下午各三小時,因此呈現複雜的照明變化。 3)它目前包含最多數量的帶註釋的身份和邊界框,即4,101個身份和126,441個邊界框。 據我們所知,MSMT17目前是人ReID最大和最具挑戰性的公共數據集。 更詳細的描述將在第三節中給出。

        爲了解決第二個挑戰,我們提出通過將數據集A中的人員轉移到另一個數據集B來彌合領域差距。來自A的被轉移人員希望保持他們的身份,同時呈現類似的樣式,例如背景,照明等, 與B中的人員一起使用。我們用一個人員轉移生成敵對網絡(PTGAN)爲這個轉移過程建模,該網絡受Cycle-GAN [41]的啓發。但 與Cycle-GAN [41]不同,PTGAN考慮對人前景的額外限制,以確保在傳輸過程中身份的穩定性。 與Cycle-GAN相比,PTGAN可以生成高質量的人物圖像,在這裏人物身份得到保留,樣式得到有效轉換。 在幾個數據集上的廣泛的實驗結果表明PTGAN有效地減少了數據集之間的域差距。

        我們的貢獻可以概括爲三個方面。 1)收集新的具有挑戰性的大規模MSMT17數據集併發布。 與現有數據集相比,MSMT17定義了更現實,更具挑戰性的人員ReID任務。 2)我們提出人員轉移以利用來自不同數據集的現有標記數據。 它有可能減輕新數據集上的昂貴數據註釋,並且可以在真實場景中輕鬆培訓人員ReID系統。 提出了一種有效的PTGAN模型用於人員轉移。 3)本文分析了阻礙人ReID應用的幾個問題。 所提出的MSMT17和算法有可能促進關於人ReID的未來研究

2.相關工作

        這項工作與描述人學習ReID和GAN的圖像轉換密切相關。 我們在本節中簡要總結這兩項工作。

    2.1人員再識別中的描述符學習

        基於深度學習的描述符相對於大多數人ReID數據集的手工特徵顯示出顯着的優勢。 一些工作從分類模型的整個圖像中學習深度描述符,其中每個人的ID被視爲一個類別。 其他一些工作將驗證模型與分類模型結合起來學習描述符。 Hermans等人表明,三重損失有效地提高了人ReID的結果。 同樣,陳等人提出四聯網絡來學習表示。

        上述作品學習全局描述符,並忽略可能對區分人員很重要的詳細線索。爲了明確地利用地方線索,Cheng等人提出了一個基於部分網絡的多通道來學習判別式描述符。 Wu等人發現手工標記的特徵可能與深層特徵相輔相成。他們將全局圖像劃分爲五個固定長度的區域。對於每個區域,提取直方圖描述符並與全局深度描述符連接。雖然上述工作取得了良好的成績,但他們忽略了固定身體部位劃分造成的錯位問題。針對解決這個問題,魏等人利用Deepercut檢測三個粗體區域,然後學習全局局部對齊描述符。在文獻[37]中,更細粒度的部分區域被局部化,然後被饋送到擬議的主軸網絡中用於描述符學習。同樣,李等人採用空間變換網絡(STN)[13]來檢測潛在的部分區域,然後學習這些區域的描述符。

    2.2 基於GAN的圖像間轉換

        由於Goodfellow等人提出了GAN。 GAN 的許多變體已被提出來處理不同的任務,例如自然風格轉移,超分辨率,從素描到圖像的生成,圖像到圖像的轉換等。其中,圖像到圖像的轉換引起了很多關注。在[12]中,Isola et al提出條件對抗網絡來學習從輸入到輸出圖像的映射函數。然而,這種方法需要配對的訓練數據,這在很多任務中很難獲得[41]。針對解決不成對的圖像到圖像翻譯任務,朱等人。 [41]提出循環一致性損失來訓練未配對的數據。另外,作品[34,14]提出了一個類似的框架來解決這個任務。我們提出的PTGAN與Cycle-GAN [41]類似,它還執行圖像到圖像的轉換。不同的是,應用了對人身份的額外限制,以確保傳輸的圖像可用於模型訓練。鄭等人。 [40]採用GAN生成用於ReID人體數據增強的新樣本。他們的工作在動機和方法上都與我們不同。據我們所知,這是GAN爲人ReID進行人員轉移的早期工作。

3.MAMT17數據集

    3.1 先前數據集的概述

        當前的人ReID數據集顯着推動了人ReID的研究。 如表1所示,DukeMMC-reID [40],CUHK03 [20]和Market-1501 [38]涉及比VIPeR [8]和PRID [10]更多的相機和身份。 足夠的訓練數據使得開發深度模型成爲可能,並且在個人ReID中顯示出他們的判別力。 雖然目前的算法已經在這些數據集上達到了很高的準確率,但是人們的ReID在實際場景中還遠未得到解決和廣泛應用。 因此,有必要分析現有數據集的侷限性。


        與實際情況下采集的數據相比,目前的數據集在四個方面具有限制性:1)身份和攝像機數量不夠大,特別是與真實監控視頻數據相比時。 在表1中,最大的數據集僅包含8個攝像頭並且少於2,000個身份。 2)大多數現有數據集只包含單個場景,即室內或室外場景。 3)大多數現有數據集都是由短時間的監控視頻構建而沒有明顯的照明變化。 4)它們的包圍盒可以通過昂貴的手工標記或過時的檢測器如可變形零件模型(DPM)[4]生成。 這些限制使得有必要爲人員ReID收集更大更真實的數據集。

    3.2 對MSMT17的說明

        針對上述限制,我們通過儘可能模擬真實場景來收集新的多場景長時間人員ReID數據集(MSMT17)。我們利用校園內部署的15臺攝像機網絡。該攝像機網絡包含12臺室外攝像機和3臺室內攝像機。我們在一個月內選擇不同天氣條件的4天進行視頻採集。每天早上,中午和下午分別拍攝3小時的視頻用於行人檢測和註釋。我們最終的原始視頻集包含180個小時的視頻,12個室外攝像機,3個室內攝像機和12個時隙。更快的RCNN [26]用於行人邊界框檢測。三個貼標籤者通過檢測到的邊界框並註釋ID標籤2個月。最後,對4 410個身份的126 441個邊界框進行註釋。圖3顯示了MSMT17的一些統計數據。圖2顯示了來自MSMT17的樣本圖像並進行了比較。與現有數據集相比,我們將MSMT17中的新功能歸納爲以下幾個方面:

            1)更多的身份,邊界框和相機。 據我們所知,MSMT17目前是最大的人ReID數據集。 如表1中的比較所示,MSMT17包含126,441個邊界框,4,101個標識,其明顯大於先前數據集中的標識。

            2)複雜的場景和背景。 MSMT17包含最多數量的相機,即放置在不同位置的15個相機。 它也用室內和室外視頻構建,這在以前的數據集中沒有考慮過。 這些考慮因素導致複雜背景和場景變化,也使MSMT17更具吸引力和挑戰性。

            3)多個時隙產生顯著地照明變化。 MSMT17收集了12個時間段,即早上,中午和下午四天。 它比以前的數據集更好地模擬真實場景,但會帶來嚴重的照明變化。

            4)更可靠的bounding box 檢測器。 與手繪和DPM檢測器相比,FasterRCNN [26]是實際應用中邊界框檢測的更好選擇,例如更易於實現且更精確。


圖2:CUHK03,Market1501,DukeMMC-reID和MSMT17中人物圖像的比較。 每列都顯示兩個相同身份的示例圖像。 很顯然,MSMT17提出了一個更具挑戰性和現實人員ReID任務。



    3.3 Evaluation Protocol

        我們將數據集分別隨機分爲訓練集和測試集。 如果在以前的數據集中將這兩部分等分,我們將訓練和測試比率設置爲1:3。 我們使用這種設置是因爲在真實場景中使用了昂貴的數據註釋,因此想要鼓勵更有效的訓練策略。 最後,訓練集包含1,041個身份的32,621個bounding boxes,測試集包含包含3,060個身份的93,820個bounding boxes。 從測試集合中,隨機選擇11659個邊界框作爲查詢圖像,並且其他82161個邊界框被用作圖庫圖像。

        與大多數以前的數據集類似,我們利用累積匹配特徵(CMC)曲線來評估ReID性能。 對於每個查詢邊界框,可以返回多個真正的肯定。 因此,我們也將人員ReID作爲檢索任務。 因此平均精度(mAP)也被用作評估度量。

4. PTGAN


        在數據集B上的人員在識別任務,爲了更好地利用數據A的訓練集,我們提出通過將A中的人轉移到B來彌補領域差距。如圖1所示,由於多種原因,不同數據集呈現不同樣式,例如 背景,照明條件,分辨率等。想象一下,如果A中的人被B的相機捕獲,那麼這些人的圖像的風格將與B的風格一致。我們的人員轉移試圖模擬這個過程,即, 學習傳遞函數爲1)確保被傳輸的人物圖像顯示與目標數據集相似的風格,並且2)在傳輸過程中保留人物的外觀和身份線索。

        這個傳輸任務看起來很簡單,例如,可以通過從A中裁剪前景人物並將其粘貼到B上的背景上來完成。但是,基於規則的算法很難處理領域間隙的多種結果。 此外,在B上可能會有複雜的樣式變化,例如圖1中PRID的兩個攝像頭之間的不同背景和光照條件。我們的算法受GAN模型的普及啓發,GAN模型在生成所需圖像樣本方面已被證明是有效的。 因此我們設計了一個人員轉移GAN(PTGAN)來執行從A到B的人員轉移。

        基於以上討論,PTGAN被構建爲滿足兩種約束,即樣式轉換和個人身份保持。 樣式轉換的目標是學習不同人物數據集之間的樣式映射函數。 個人身份保持的目標是確保一個人的身份在轉移後保持不變。 由於一個人的不同轉移樣本被視爲具有相同的人員ID,因此對人員身份的約束對於人員ReID培訓很重要。 因此,我們制定了PTGAN的損失函數,即:


        其中LStyle表示風格損失,LID表示身份損失,λ1是兩次損失之間折衷的參數。

        ReID數據集不包含配對人員圖像,即來自不同數據集的同一人員的圖像。 因此,風格轉移可以被看作是不成對的圖像到圖像的翻譯任務。 由於Cycle-GAN在不成對的圖像到圖像轉換任務中的良好性能,我們使用Cycle-GAN來學習數據集A和B之間的樣式映射函數。假設G表示從A到B的樣式映射函數, G表示從B到A的樣式映射函數。DA和DB分別是A和B的樣式鑑別器。 風格轉移學習的目標函數可以表述如下:


        LGAN代表標準對抗性損失[7],L cyc代表週期一致性損失[41]。 有關這些損失函數的更多詳細信息,請參閱Cycle-GAN [41]。

        完全考慮風格轉移可能會導致轉發人員圖像中模糊的人員ID標籤。 因此,我們計算身份損失以確保傳輸數據中人員ID標籤的準確性。 人的身份損失是通過首先獲得一個人的前景面具來計算的,然後在人員轉移之前和之後評估人的前景的變化。 給定A的數據分佈爲a〜pdata(a),B的數據分佈爲b〜pdata(b)。 身份損失的目標函數可以表述如下:


        其中G(a)代表來自圖像a的被轉移人物圖像,並且M(a)代表人物圖像a的前景面具。

        由於其在分割任務上的良好性能,我們使用PSPNet [36]來提取人物圖像上的mask。 在具有移動前景和固定背景的視頻監控數據上,可以應用更精確和更高效的前景提取算法。 可以證明,PTGAN不需要目標數據集B上的人員身份標籤。樣式鑑別器DB可以用B上的非標識人員圖像進行訓練。因此,PTGAN非常適合真實場景,其中新的測試域具有 有限的或沒有標籤的培訓數據。

        我們展示了PTGAN在圖4中生成的一些樣本結果。與Cycle-GAN相比,PTGAN生成質量更高的圖像。 例如,人的外觀保持不變,風格被有效地轉移到PRID相機1上。 自動生成陰影,道路標記和背景,與PRID相機1上的相似。 同樣有趣的是,PTGAN仍然可以很好地處理由PSPNet產生的噪聲分割結果。 這意味着,PTGAN對分割錯誤也很有效。 更詳細的PTGAN評估將在5.4部分給出。


圖4:PTGAN和Cycle-GAN從CUHK03到PRID-cam1的傳輸圖像的比較。 第二行顯示PSPNet的分割結果。 粉色區域被分割爲人體區域。

5. 實驗

    5.1 數據集

        除了MSMT17之外,我們的實驗還採用了四種廣泛使用的人ReID數據集。

        DukeMMC-reID [40]由1,812個身份和36,411個邊界框組成。 使用包含702個身份的16,522個邊框來訓練。 其餘的身份包含在測試集中。 DukeMMC-reID也簡稱爲Duke。

        Market-1501 [38]包含1,501個身份和32,668個邊界框。 訓練集包含12,936個包含751個身份的邊界框。 其餘750個身份被包含在測試集中。 Market-1501也被稱爲Market。

        CUHK03 [20]包含由DPM和hand生成的1,467個身份和28,192個邊界框。 繼工作[32]之後,使用了26,264個包含1,367個身份的包圍盒進行訓練,並且使用了包含100個身份的1,928個包圍盒進行測試。

        PRID [10]由來自兩個攝像機的934個身份組成。 我們的實驗使用兩臺相機共享的200人的邊界框作爲測試集。

    5.2 實驗細節

        PTGAN使用類似於Cycle-GAN [41]中的網絡架構。 對於生成網絡,設計了兩個步幅2卷積,9個殘餘塊和兩個步幅負二分之一分步交錯卷積。 鑑別器網絡中包含兩部分。 PatchGAN [12]被採納爲一個部分。 PatchGAN將圖像中的70×70補丁是真實還是僞造。 對於另一部分,在前景人物上計算轉移圖像和輸入圖像之間的L2距離。

        在PTGAN中採用了Adam Solver [15]。 對於生成網絡,學習率設置爲0.0002。 鑑別器網絡的學習速率被設置爲0.0001。 我們設λ1= 10,λ2= 10。輸入圖像的大小爲256×256。 最後,我們訓練PTGAN 40個epochs

    5.3 在MSMT17上的性能

        如第三節所述,MSMT17具有挑戰性,且接近現實。 本節通過測試MSMT17上的現有算法來驗證此聲明。

        我們審閱了2017年和2016年發表的最先進的方法。在這些方法中,Wei等人提出了GLAD[30]在市場上獲得最佳表現,並由蘇等人提出了PDC [27]在CUHK03.1上達到最佳性能。因此,我們使用由其作者提供的代碼和模型來評估MSMT17上的這兩種方法。 在大多數人ReID作品中,GoogLeNet [28]通常被用作基準模型。 因此我們也使用GoogLeNet [28]作爲我們的基準。

        我們總結的實驗結果到表2。如表中所示,MSMT17的基線只能達到23%的mAP,明顯低於市場上的mAP 51.7%[6]。 很明顯,PDC [27]和GLAD [30]通過考慮額外的部分和區域特徵,大大超過了基線性能。 然而,GLAD取得的最佳表現,例如34%的mAP,仍然大大低於其在其他數據集上的報告表現,例如市場上的73.9%。 上述實驗清楚地顯示了MSMT17的挑戰。


        我們還在圖5中顯示了一些樣本檢索結果。從樣本中,我們可以得出結論,雖然具有挑戰性,但MSMT17定義的ReID任務是現實的。 請注意,在真實場景中,不同的人可能會呈現類似的服裝線索,並且同一人的圖像可能會呈現不同的照明,背景和姿勢。 如圖5所示,假陽性樣本顯示與查詢人的相似外觀。 一些真實的肯定會從查詢中呈現明顯的照明,姿勢和背景。 因此,我們認爲MSMT17是一個有價值的數據集,有助於未來人類ReID的研究。


    5.4 人員轉移表現

        人員轉移從數據集A執行到B.所傳輸的數據因此用於在B上進行培訓。爲確保有足夠的傳輸數據用於訓練B,我們測試了兩種情況下的人員轉移,即1)從大型A 到小B,2)從大A轉移到大B.在下面的實驗中,我們使用A提供的人員轉移培訓集。

        5.4.1 從大數據集轉移到小數據集

        該部分測試從CUHK03和Martket傳輸的人員數據到小數據集PRID的性能。 如圖1所示,PRID上兩臺攝像機拍攝的人物圖像顯示出不同的風格。 因此,我們分別對這兩個攝像機進行人員轉移,即PRID-cam1和PRIDcam2。

        我們首先執行從CUHK03到PRIDcam1和PRID-cam2的人員轉移。 轉移人物圖像到PRID-cam1的樣本顯示在圖4中。我們另外顯示了從CUHK03轉移到圖6中PRID-cam2的人物圖像的樣本。顯然,轉移人物圖像顯示給這兩個相機顯示 不同的風格,這與PRID上的風格一致。 我們還將市場分別轉移到PRID-cam1和PRID-cam2。 來自Market的轉移人員圖像的樣本顯示在圖7中,其中可以分別觀察到與圖4和圖6中相似的結果。



        進一步評估是否通過PTGAN降低了領域差距。我們對使用CUHK03和Market訓練集訓練的GoogLeNet和訓練有素的訓練集GoogLeNet進行比較。實驗結果總結在表3中。如表中所示,在CUHK03上訓練的GoogLeNet僅在PRID上達到2.0%的Rank-1準確性,這意味着CUHK03和PRID之間存在顯着的域間隙。通過PTGAN傳輸的訓練數據,GoogLeNet實現了顯着的性能提升,例如Rank-1準確性從2.0%提高到37.5%,Rank-10準確性從11.5%提高到72.5%。類似的改進可以從Martket的結果中觀察到,例如,在轉移人後,Rank-1準確性從5.0%顯着提高到33.5%。實質的性能改進清楚地表明瞭縮小的領域差距。而且,這個實驗表明,即使沒有使用PRID上的標記數據,我們也可以使用來自其他數據集的訓練數據在其上實現合理的性能。

表3:在PRID上測試但用不同訓練集訓練的GoogLeNet的性能。 *表示傳輸的數據集。 例如,下標cam1表示傳送的目標數據集PRID-cam1。 “cam1 / cam2”意味着使用PRID-cam1中的圖像作爲查詢集,並使用PRID-cam2中的圖像作爲圖庫集。


        從表3中,我們還觀察到一個有趣的現象,即將兩個攝像機上傳輸的數據集合在一起可以獲得更好的性能。 這可能是由於兩個原因:1)組合數據集有更多的訓練樣本,從而有助於訓練更好的深度網絡,2)它能夠學習兩臺相機之間的風格差異。 在組合數據集中,每個人圖像在camera1和camera2上分別具有兩個不同樣式的傳輸樣本。 由於這兩個樣本具有相同的人物識別標籤,因此該訓練數據可強制網絡學習,以增強攝像機1和攝像機2之間風格變化的穩健性。

        5.4.2 從大數據集轉移到大數據集

        這部分模擬了實際應用中普遍存在的更具挑戰性的場景,即沒有提供大型測試集上的可用訓練數據。 因此,我們通過在三個大型數據集(即Duke,Market和CUHK03)之間進行人員轉移來測試PTGAN的績效。

        大的人員ReID數據集通常包含大量相機,因此執行到每個單個相機的人員傳輸成本很高。 因此,與第5.4.1節中的實驗設置不同,我們不區分不同的攝像機,並用一個PTGAN直接將人員圖像傳輸到目標數據集。 顯然,這不是人員轉移的最佳解決方案。 我們的實驗結果總結在圖8中。很顯然,在傳輸數據集上訓練的GoogLeNet比在原始訓練集上訓練的人更好。 樣本傳送的圖像如圖9所示。顯然,雖然我們使用簡單的傳送策略,但PTGAN仍可生成高質量的圖像。 作爲我們未來在第二部分的工作,第六節將討論可能的更好的人員轉移到大型數據集的解決方案。


        5.5  在MSMT17上執行人員轉移

        我們在MSMT17上進一步測試PTGAN。 我們使用在第5.4.2節中相同的策略進行人員轉移。 如表4所示,PTMAN有效縮小了MSMT17與其他三個數據集之間的領域差距。 例如,分別從Duke,Market和CUHK03進行人員轉移後,Rank-1的準確性分別提高了4:7%,6:8%和3:7%。


        在實際情景中,測試集通常很大,標記的訓練數據數量有限。因此,我們在這種情況下測試人員轉移的有效性。我們首先使用表5中的MSMT17的不同部分的訓練數據顯示人ReID表現。從表4和表5的比較可以看出,10%的MSMT17訓練集與來自Duke的轉移訓練集有相似的表現,例如,兩者都達到約11.5%〜11.8%的Rank-1準確度。因此,來自Duke的16,522個傳輸圖像與MSMT17上的2,602個註釋圖像實現了相似的性能。我們可以大致估計6.3個傳輸的圖像相當於1個帶註釋的圖像。這因此有效地減輕了新數據集上數據註釋的成本。傳輸的數據然後與MSMT17上的訓練集相結合。如表5所示,Rank-1準確度分別通過結合Duke,Market和CUHK03的傳輸數據分別不斷提高1.9%,5.1%和2.4%。


6. 結論和討論

        本文提供了一個大規模的MSMT17數據集。 MSMT17在照明,場景,背景,人體姿勢等方面提供了大量變體,並且是最大的人ReID數據集。與現有的數據集相比,MSMT17定義了一個更現實,更具挑戰性的ReID任務。

        PTGAN被提議爲一項關於人員轉移的原創工作,以彌補數據集之間的領域差距。大量的實驗表明,PTGAN有效地減少了領域差距。不同的相機可能會呈現不同的風格,使用一種映射功能難以執行多種風格的轉換。因此,第 5.4.2節和第5.5節中的人員轉移策略還不是最優的。這也解釋了爲什麼PTGAN在每個單獨的目標攝像機上學習的效果在第5.4.1節中表現更好,更好的策略是考慮相機之間的風格差異以獲得更穩定的映射功能。我們未來的工作將繼續研究更大,更有效的大型數據集轉移策略。



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章