讀書筆記-視覺綜述翻譯_數據集介紹

4 數據集介紹

4.1 計算機視覺

4.1.1 目標識別

諸如ImageNet [160],PASCAL VOC和Microsoft COCO之類的大規模公開可用數據集的出現,推動了新穎的計算機視覺算法(特別是深度學習技術)的發展,用於對象等識別任務分類,檢測和語義分割。

Jia Deng, Wei Dong, Richard Socher, Li-jia Li, Kai Li, and Li Fei-fei. \Imagenet: A large-scale hierarchical image database". In: Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). 2009.

由Ev-eringham等人提供的歐盟資助的PASCAL視覺目標類挑戰VOC。 是目標分類,目標檢測,目標分割和動作識別的基準。它由從Flickr收集的具有挑戰性的照片組成,具有高質量註釋,並且在姿勢,照明和遮擋方面具有很大的差異。自引入以來,VOC挑戰已成爲基準識別算法最流行的測試平臺之一。在2012年PASCAL計劃結束之前,它一直定期適應社區的需求。這些年來,基準的規模不斷擴大,在2012年達到了11,530張圖像和27,450個帶註釋的對象。
Lin引入了Microsoft COCO數據集,用於對象檢測,實例分割和上下文推理。他們提供複雜的日常場景的圖像,這些場景包含自然環境中的常見對象。該數據集包括91個對象類,250萬個帶註釋的實例以及總共32.8萬張圖像。 Microsoft COCO在每個類中的實例數量比PASCALVOC對象分段基準大得多。所有對象均已按實例分割進行註釋。

4.1.2 目標跟蹤

爲了追蹤多個物體,Leal-Taix́e等人引入了第一個集中式基準MOTChallenge。基準測試包含14個具有挑戰性的視頻序列,這些視頻序列是在不受限制的環境中用靜態和動態相機拍攝的。 MOTChallenge結合了多個現有的多對象跟蹤基準,例如PETS [203]和KITTI [238]。基準測試提供的公共檢測可以分析獨立於檢測器的跟蹤系統的性能。

J. Ferryman and A. Shahrokni. \PETS2009: Dataset and challenge".In: Performance Evaluation of Tracking and Surveillance. 2009, pp. 1{6}.
Andreas Geiger, Philip Lenz, and Raquel Urtasun. \Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite". In: Proc.IEEE Conf. on Computer Vision and Pattern Recognition (CVPR).2012.

4.1.3 立體視覺和3D重建

Middlebury立體視覺基準在雙目視覺中很成功,激發了Seitz 創建了 Middlebury multi-view stereo (MVS),該數據集包含了校準的高分辨率多視圖, 具有3D ground truth模型的圖像,但缺點是在數據量大小和多樣性上存在不足。
DTUMVS數據集提供了124種不同的場景,通過組合來自不同相機位置的結構化光掃描獲得參考數據,但相對客觀世界來說還是不夠。
EPFL Multi-View dataset包括5個不同建築物的圖像和LiDAR掃描。
ETH3Ddataset 提供了高分辨率圖像以及適用於各種室內和室外場景的同步低分辨率立體視頻。他們使用高精度激光掃描儀,並使用強大的優化技術記錄了所有圖像。
Tanks and Temples使用了一個高精度的激光掃描儀和兩個高分辨率相機(一個帶有全局快門,另一個帶有滾動快門)創建了一個新的室外和室內場景數據集。該數據集由14個場景組成,包括雕塑,大型車輛,房屋規模的建築物以及大型室內和室外場景。
BigSFM dataset集合了目前相當受歡迎的。

4.1.4 光流法

Middlebury flow benchmark也提供了基準模型,由於尺寸較小,在實驗室採集的數據在複雜結構,光照變化,陰影上與自然條件存在一定的差距,且只包含小運動,但應用範圍較爲侷限。
Slow Flow方法提出了一種新穎的方法,可以通過在時空體積中密集採樣,跟蹤像素來從高速攝像機獲得準確的參考數據。這種方法可以獲取具有挑戰性的日常場景中的光流地面真相,並具有逼真的效果(例如運動模糊)來增強數據,以比較不同條件下的方法。該方法提供了160種多樣的現實世界動態場景序列,其分辨率(1280×1024像素)比以前的光學數據集要大得多。

Joel Janai, Fatma G¨uney, Jonas Wulff, Michael Black, and Andreas Geiger. Slow Flow: Exploiting High-Speed Cameras for Accurate and Diverse Optical Flow Reference Data". In: Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). 2017.

獲取光流地面真相的問題也可以通過創建合成數據集來解決。 MPI Sintel optical flow benchmark通過光流場真實性來渲染場景。Sintel由1,628幀組成,並提供了三個不同的數據集,這些數據集具有不同的複雜度,這些數據集是使用不同通道的渲染管線獲得的。與Middlebury類似,它們提供了一個評估服務器進行比較。

D. J. Butler, J. Wulff, G. B. Stanley, and M. J. Black. \A naturalistic open source movie for optical flow evaluation". In: Proc. of the
European Conf. on Computer Vision (ECCV). 2012
光流數據集的有限大小會影響對深度高層容量模型的訓練。

Mayer提出了另一個大規模的數據集,由具有光流場真相的三個合成立體聲視頻數據集組成:FlyingTh-ings3D,Monkaa和Driving。 FlyingThings3D提供了在隨機創建的場景中沿着隨機3D軌跡飛行的日常3D對象。受KITTI數據集的啓發,已創建了一個駕駛數據集,該數據集使用了與FlyingThings3D相同池中的汽車模型,並使用了來自3D Warehouse的高度詳細的樹和建築模型。 Monkaa是一部動畫短片,類似於MPI Sintel基準測試中使用的Sintel。

N. Mayer, E. Ilg, P. Haeusser, P. Fischer, D. Cremers, A. Dosovitskiy, and T. Brox. \A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation". In: Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). 2016.

合成光流數據集爲訓練提供了許多示例,但是,在深層神經網絡中,它們缺乏現實性,並且多樣性受到限制。因此,通常將大規模的綜合數據集用於預訓練,然後,將預訓練的模型面向小型,更加現實的數據進行微調。

4.2 自動駕駛數據集

已經提出了一些數據集以專門解決自動駕駛的問題。 Geigeret等人介紹的KITTI Vision Benchmark。該數據集是自動駕駛環境下立體聲,光流,視覺測距/ SLAM和3D對象檢測的第一個公開基準。該數據集是從配備有高分辨率彩色和灰度立體攝像頭,Velodyne 3D激光掃描儀以及高精度GPS / IMU慣性導航系統的自動駕駛平臺採集到的。
由於用作參考基準傳感器中激光雷達旋轉的侷限性,立體視覺和光流基準被侷限在具有攝像機運動的靜態場景中。在2015版的KITTI光流和立體視覺Benchmark中,Menze和Geiger將3D CAD模型擬合到所有運動中的車輛,爲動態場景提供了地面真實性 。對於KITTI對象檢測挑戰,已經開發了一種特殊的3D標籤工具,以在7481個訓練圖像和7518個測試圖像中用3D邊界框註釋所有3D對象。物體檢測的基準被分爲車輛,行人和騎車人的檢測任務,從而使分析的重點放在自動駕駛汽車方面最重要的問題上。視覺里程錶/ SLAM挑戰賽由22個序列組成,總長度爲39.2公里。使用GPS / IMU定位單元獲得地面真實姿態,並向其提供RTK校正信號。

Moritz Menze and Andreas Geiger. \Object Scene Flow for Autonomous Vehicles". In: Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). 2015.

KITTI數據集已將其自身確立爲上述所有任務中的標準基準之一,特別是在自動駕駛應用中。然而,儘管KITTI爲該工作中考慮的所有問題提供了帶註釋的數據和評估服務器,但規模仍然相當有限。因此,KITTI數據集通常最常用於評估和微調。

4.2.1 目標檢測與語義分割

Cordts等人提供的Cityscapes Dataset。 該數據集像素級和實例級語義標籤提供了一個基準和大規模數據集,該標籤捕獲了現實世界中城市場景的複雜性。爲5,000張圖像提供了高質量的像素級註釋,同時使用衆包獲得的粗略標籤爲20,000張其他圖像添加了註釋。雖然Cityscapes提供了一個評估服務器來公平地比較方法,但數據集的大小和多樣性依然有限。
對於物體檢測,Braun等人提出了在12個歐洲國家的31個城市中記錄的大規模數據集。與Cityscapes類似,評估服務器可以對方法進行公平比較。但是,他們只爲行人,騎車人和城市交通中的其他騎手提供邊界框,遮擋和方向註釋。

Markus Braun, Sebastian Krebs, Fabian Flohr, and Dariu M. Gavrila.The EuroCity Persons Dataset: A Novel Benchmark for Object Detection". In: IEEE Trans. on Pattern Analysis and Machine Intelligence (PAMI) (2019).

衆包公司Mapillary已收集了2.82億張街道圖像,覆蓋了全球450萬公里。根據這些數據,創建了Mapillary Vistas Dataset並與社區共享,提供了25,000張高分辨率圖像,其中包含66個對象類別的密集註釋和37個類的實例特定標籤。
BerkeleyDeepDrive數據集用於對象檢測,實例分割,道路和車道檢測,提供了來自紐約,伯克利,舊金山和灣區的100K部分註釋的駕駛視頻。該數據集在場景和天氣條件上比“Cityscapes”更爲多樣化,但在用於記錄的城市數量方面仍然受到限制。在這種情況下,Mapillary Vistas數據集是用於語義分割和對象識別的最多樣化的與自動駕駛相關的數據集,然而,像Mapillary Vistas數據集,ImageNet,PASCAL VOC和Microsoft Coco這樣的數據集不太適合訓練和測試方法的時間一致性是因爲它們僅提供單個圖像,而KITTI,Cityscapes和Berkeley DeepDrive則提供圖像序列。
最近,致力於自動駕駛解決方案的主要公司也開始公開提供其註釋數據。百度的自動駕駛項目阿波羅(Apollo)創建了數據開放平臺,該平臺由用於自動駕駛的模擬,註釋和演示數據組成。 ApolloScape數據集提供帶註釋的街景圖像(144K圖像)和實例分割(90K圖像),車道檢測(160K圖像),汽車檢測(70K)以及交通參與者的跟蹤(100K圖像)。該數據集可以評估在不同天氣條件下以及在不同白天的方法的性能。
Nutonomy公司發佈了NuScenes數據集,該數據集提供來自整個傳感器套件的數據,並帶有用於語義分割和對象檢測的註釋。該數據集包含超過一百萬個攝像機圖像。但是,ApolloScape和NuScenes均僅分別在一個或兩個城市中記錄,因此多樣性仍然受到限制。
到目前爲止,用於3D語義分割的數據集在大小和類數方面受到限制。最近,Behleyet等人基於KITTI視覺測程基準提出了一個用於3D語義分割的大型數據集。與先前的註解相反,此次可以爲LiDAR完整的360度視野提供密集的逐​​點註釋。數據集包含25種不同類別的20,000多次掃描。

Jens Behley, Martin Garbade, Andres Milioto, Jan Quenzel, Sven Behnke, Cyrill Stachniss, and Juergen Gall. \A Dataset for Semantic Segmentation of Point Cloud Sequences". In: arXiv.org (2019).
Andreas Geiger, Philip Lenz, Christoph Stiller, and Raquel Urtasun. Vision meets Robotics: The KITTI Dataset". In: International Journal of Robotics Research (IJRR) 32.11 (2013), pp. 1231{1237.

4.2.2 目標跟蹤

Dollar等人提出的Caltech行人檢測基準提供25萬幀序列的序列,這些序列是在城市環境中通過常規流量行駛時記錄的。註釋了350,000個邊界框和2,300個唯一的行人,包括邊界框和詳細的遮擋標籤之間的時間對應關係。

  • 上述的目標檢測爲時間序列的檢測,均包含跟蹤信息。學習一下是不是這樣
  • 還有一些公司舉辦的數據處理比賽,能否加進去進行更新
  • 對數據集有更新的,更詳細的介紹,比如數據集中有哪些標籤信息,可以直接看出可以用多少。

4.2.3 交通標誌檢測

4.2.4 道路邊沿檢測

KITTI基準由Fritsch等人擴展進行道路/車道檢測任務。總共已經選擇了600種不同的訓練和測試圖像,用於手動標註道路和車道區域。 Mattyus等使用航拍圖像來增強KITTI數據集的細粒度細分類別,例如停車位和人行道以及行車道的數量和位置。

Jannik Fritsch, Tobias Kuehnl, and Andreas Geiger. “A New Perfor-mance Measure and Evaluation Benchmark for Road Detection Algo-rithms”. In:Proc. IEEE Conf. on Intelligent Transportation Systems(ITSC). 2013
航拍圖像:Gellert Mattyus, Shenlong Wang, Sanja Fidler, and Raquel Urtasun.“HD Maps: Fine-Grained Road Segmentation by Parsing Ground andAerial Images”. In:Proc. IEEE Conf. on Computer Vision and PatternRecognition (CVPR). 2016

大型車道檢測數據集,Caltech車道檢測數據集,該數據集在不同的時間記錄在加利福尼亞州的帕薩迪納市,由1200多個幀組成。 [1]提出了第一個大規模車道檢測數據集,並提供了超過20,000張圖像。與以前的數據集相比,他們還考慮了不同的天氣條件。迄今爲止,[2]具有100,000張圖像的Berkeley DeepDrive數據集26 是最大,最多樣化的車道/道路檢測數據集.

[1] Seokju Lee, Jun-Sik Kim, Jae Shin Yoon, Seunghak Shin, OleksandrBailo, Namil Kim, Tae-Hee Lee, Hyun Seok Hong, Seung-Hoon Han,and In So Kweon. “VPGNet: Vanishing Point Guided Network for Laneand Road Marking Detection and Recognition”. In:Proc. of the IEEEInternational Conf. on Computer Vision (ICCV). 2017, pp. 1965–1973.
[2] Fisher Yu, Wenqi Xian, Yingying Chen, Fangchen Liu, Mike Liao,Vashisht Madhavan, and Trevor Darrell. “BDD100K: A Diverse Driv-ing Video Database with Scalable Annotation Tooling”. In:arXiv.org(2018).

4.2.5 光流和立體視覺的檢測

4.2.6 長時間序列檢測

諸如KITTI或Cityscapes之類的一些數據集專注於自動駕駛算法能力的發展,但並未解決長期自主性的挑戰,例如環境隨時間的變化。爲了解決這個問題,Carlevaris-Bianco等人提出了一個新的長期視野和LiDAR數據集,包括27節。但是,該數據集不是從車輛記錄的,而是在密歇根大學校園內使用Segway機器人記錄的。

Nicholas Carlevaris-Bianco, Arash K. Ushani, and Ryan M. Eustice. University of Michigan North Campus long-term vision and lidar dataset". In: International Journal of Robotics Research (IJRR) 35.9 (2016), pp. 1023{1035.

Maddern等人提出了一種用於長期自動駕駛的新穎數據集。他們收集了圖像,LiDAR和GPS數據,同時全年中轉1000公里。這使他們能夠捕獲由於照明,天氣和季節變化,動態物體和構造而導致的場景外觀的巨大變化。這樣的長期數據集可以深入研究阻礙實現自主車輛實現的問題,例如一年中不同時間的定位。

Will Maddern, Geoff Pascoe, Chris Linegar, and Paul Newman. 1 Year, 1000km: The Oxford RobotCar Dataset". In: International Journal of Robotics Research (IJRR) (2016)

最近,Sattler等人 [571]提出了三個數據集,用於在不同天氣條件,季節以及白天和黑夜的情況下記錄的視覺本地化(亞琛白天,機器人季節和CMU季節)。亞琛Day-Night數據集包含使用消費類相機記錄的圖像,而RobotCar Seasons和CMU Seasons是使用車載相機獲取的。

Torsten Sattler, Will Maddern, Carl Toft, Akihiko Torii, Lars Hammarstrand, Erik Stenborg, Daniel Safari, Masatoshi Okutomi, Marc Pollefeys, Josef Sivic, Fredrik Kahl, and Tom´as Pajdla. \Benchmarking 6DOF Outdoor Visual Localization in Changing Conditions". In: Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). 2018, pp. 8601{8610

最近,Scape Technologies展示了使用低端消費類球形攝像機在倫敦帝國理工學院附近捕獲的長期數據集。該數據集記錄了一年的時間,並結合了不同的天氣條件,白天和季節。

Vassileios Balntas. SILDa: A Multi-Task Dataset for Evaluating Visual Localization. https://medium.com/scape-technologies/silda-amulti - task - dataset - for - evaluating - visual - localization - 7fc6c2c56c74. Online: accessed 17-June-2019. 2019.

4.3 利用遊戲環境合成數據

發佈了22 篇原創文章 · 獲贊 3 · 訪問量 2601
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章