NetVLAD: CNN architecture for weakly supervised place recognition 翻譯

5 實驗

5.1 數據集和評估方法

我們報告兩個公開可用的數據集的結果。

匹茲堡(Pitts250k)[81]包含250k數據庫圖像從Google Street View下載和24k測試圖,從街景視圖生成但在不同時間生成,
相隔數年。

我們將此數據集分爲三個大致相等的培訓,驗證和測試的各個部分,每個部分都包含大約83k數據庫圖像和8k查詢,他們都通過地理上的劃分,以確保是每個合集都包含獨立的圖像

爲了促進更快的培訓,對於某些實驗,使用較小的子集(Pitts30k),其中包含每個訓練/驗證(測試)/測試中有10k數據庫圖像
集合,這些集合在地理位置上也不相交。

東京24/7 [80]包含76k數據庫圖像和315個使用手機相機拍攝的查詢圖像。

這是極富挑戰性的數據集,在其中進行查詢圖片如上所述,數據採集自白天傍晚和晚上,而數據庫訓練圖像僅有白天,因爲它們源自Google街景視圖。

爲了形成訓練和驗證,我們使用Time Machine功能收集了東京的其他Google街景全景圖,並將其命名爲TokyoTM;

東京24/7(測試)和東京TM訓練和驗證在地理位置上都不相交。有關拆分的更多詳細信息,請參見附錄B。

評估指標。我們遵循標準的位置識別評估程序[4,24,65,80,81]。
如果前N個檢索到的數據庫圖像中至少有一個距離查詢的地面真實位置d = 25米以內,則認爲查詢圖像已正確定位。

然後針對不同的N值繪製正確識別的查詢(召回)的百分比。

對於Tokyo 24/7,我們遵循[80]並在排名數據庫上執行空間非最大抑制評估前的圖像。

實施細節。我們使用兩個基本體系結構,這些體系結構通過最大池化(fmax)和我們的NetVLAD(fV LAD)層進行了擴展:AlexNet [37]和VGG-16 [73];
兩者都在ReLU之前的最後一個卷積層(conv5)上裁剪。對於NetVLAD,我們使用K = 64得出兩種基本體系結構的16k和32k-D圖像表示形式。

初始化程序,用於訓練的參數,用於訓練元組的採樣程序以及其他實現細節在附錄A中給出。
所有培訓和評估代碼以及我們受過培訓的網絡都可以在[1]上在線查看。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章