SLAM、三維重建,語義相關數據集大全

作者朱尊傑,公衆號:計算機視覺life,編輯成員

一 主要針對自動駕駛:

1.KITTI數據集:

http://www.cvlibs.net/datasets/kitti/index.php(RGB+Lidar+GPS+IMU)

  • KITTI數據集由德國卡爾斯魯厄理工學院和豐田美國技術研究院聯合創辦,是目前國際上最大的自動駕駛場景下的計算機視覺算法評測數據集。該數據集用於評測立體圖像 (stereo),光流 (optical flow),視覺里程計(visual odometry),3D物體檢測 (object detection) 和 3D跟蹤 (tracking)等計算機視覺技術在車載環境下的性能。KITTI包含市區、鄉村和高速公路等場景採集的真實圖像數據,每張圖像中最多達15輛車和30個行人,還有各種程度的遮擋與截斷。
  • Andreas Geiger and Philip Lenz and Raquel Urtasun, Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite, CVPR’12, cited by 3000+
  • 該數據集論文共8頁,主要由三部分組成:Introduction、Challenges and Methodolgy、Evaluation:
    • Introduction:列一下相關的開源數據集;說明自己做這個數據集的原因(現有數據集都過分簡單,嚴格限制路況從而沒有包含現實路上的實際情況等);介紹自己數據集的採集方式、包含的內容等;
    • Challenges and Methodolgy:主要寫了數據採集會遇到的問題以及要做的所有事情。如,傳感 setup;標定方式;groundtruth怎麼獲取;如何選取好的數據作爲benchmark;評價標準。
    • Experimental Evaluation:將state-of-the-art的系統在自己的數據集上跑結果&對比&分析。

2.Oxford數據集 :

http://robotcar-dataset.robots.ox.ac.uk/datasets/(RGB+Lidar+GPS+IMU)

  • 自動駕駛數據集。對牛津的一部分連續的道路進行了上百次數據採集,收集到了多種天氣行人和交通情況下的數據,也有建築和道路施工時的數據,總的數據長度達1000小時以上。
  • W. Maddern, G. Pascoe, C. Linegar and P. Newman, “1 Year, 1000km: The Oxford RobotCar Dataset” The International Journal of Robotics Research (IJRR), 2016. cited by 200+

3.其餘自動駕駛相關數據集有:

  • Cityscape, Comma.ai, BDDV, TORCS, Udacity, GTA, CARLA, Carcraft

二 包含Depth的SLAM與三維重建數據集:

1.ASL Kinect數據集

[http://projects.asl.ethz.ch/datasets/doku.php](https://projects.asl.ethz.ch/datasets/doku.php?id=kmavvisualinertialdatasets)

​ 由Kinect採集的包含三種不同難度的27個序列,GT得自Vicon,採集場景如下:

  • F. Pomerleau, S. Magnenat, F. Colas, M. Liu, R. Siegwart, “Tracking a Depth Camera: Parameter Exploration for Fast ICP”, IROS 2011, cited 91
  • 論文主要內容:開源了一個基於ROS的模塊化的ICP庫,可以快速的測試不同變種ICP的參數和性能; 然後開源自己採集的這個數據集,並在該數據集的基礎上做實驗,考慮了depth的噪聲,採集頻率,FOV等因素對ICP的影響。

2.ASL RGB-D 數據集

http://projects.asl.ethz.ch/datasets/doku.phpid=kmavvisualinertialdatasets#downloads

  • 就一個序列,但是其論文主要是提出一個系統,不是將開源數據集作爲貢獻。數據集:RGB-D,軌跡的GT來自Vicon,並用Lidar得到場景結構的GT(點雲)

  • Helen Oleynikova, Zachary Taylor, Marius Fehr, Juan Nieto, and Roland Siegwart, “Voxblox: Building 3D Signed Distance Fields for Planning”, IROS’17, cited 40

  • 這篇論文主要做的問題是機器人路徑規劃需要的建圖:是用 Euclidean Signed Distance Fields (ESDFs) 而非 Octomap(路徑規劃常用地圖)來建立四軸飛行器優化路徑需要的地圖;他們的主要貢獻是提出方法使得在飛行器上基於CPU能實時地完成從建立的TSDF圖中提取ESDF並完成路徑規劃。

3.TUM RGB-D:

http://vision.in.tum.de/data/datasets/rgbd-dataset/download

  • 數據集包含一些室內的序列,在不同的紋理下,不同的光照和不同的結構條件,從Kinect傳感器採集到的數據中分別去評估物體的重建和SLAM/視覺里程計的性能。但是這個數據集還是沒有完整的IMU。
  • J. Sturm and N. Engelhard and F. Endres and W. Burgard and D. Cremers,A Benchmark for the Evaluation of RGB-D SLAM Systems, IROS’12, cited 1200+

4.ICL-NUIM:

http://www.doc.ic.ac.uk/~ahanda/VaFRIC/iclnuim.html

  • 虛擬數據集,但是沒有IMU。該集旨在對RGB-D、視覺測距和SLAM算法進行基準測試。兩個不同的場景(起居室和辦公室場景)提供了基本事實。客廳具有3D表面地面實況以及深度圖和相機姿勢,用於標記相機軌跡而且還用於重建。辦公室場景僅帶有軌跡數據,並且沒有任何明確的3D模型。
  • A. Handa and T. Whelan and J.B. McDonald and A.J. Davison, A Benchmark for {RGB-D} Visual Odometry, {3D} Reconstruction and {SLAM} ,ICRA‘14,cited 340

5.VaFRIC:

http://www.doc.ic.ac.uk/~ahanda/VaFRIC/index.html

  • 虛擬數據集,沒有IMU。ICL-NUIM的同一個團隊,這個數據集只有一個目的,測試不同曝光時間對相機跟蹤的影響,我的想法的萌芽。網站有提供一些做虛擬數據集的方法

  • A. Handa and R. A. Newcombe and A. Angeli and A. J. Davison, Real-Time Camera Tracking: When Is High Frame-Rate Best? , ECCV’12 , cited 100+

三 不含Depth的SLAM數據集:

1.ASL EuRoC:

http://projects.asl.ethz.ch/datasets/doku.phpid=kmavvisualinertialdatasets

  • 雙目RGB+IMU,GT來自於Vicon和Lidar,EuRoC。數據集包含11個雙目序列,這些序列是由微型飛行器在兩個不同的房間和一個大型工業環境中飛行時記錄下來的。提供兩種類型的數據集: 第一個包含來自Leica多站的三維位置地面真值,並着重於視覺慣性的評估SLAM算法在一個真實的工業場景。
  • M. Burri, J. Nikolic, P. Gohl, T. Schneider, J. Rehder, S. Omari, M. Achtelik and R. Siegwart, The EuRoC micro aerial vehicle datasets, (IJRR’16 ) cited 258
  • IJRR是機器人頂刊,SCI一區,該論文應該是約稿。論文分三部分:1. 傳感器的組裝以及座標的設定;2. 所採集數據集的細節描述以及如何使用;3. 如何標定傳感器以及GT。

2.TUM VI banchmark:

http://vision.in.tum.de/data/datasets/visual-inertial-dataset (fisheye+IMU)

  • Schubert, D.Goll, T.Demmel, N.Usenko, V. Stuckler, J.& Cremers, D. (2018). The TUM VI Benchmark for Evaluating Visual-Inertial Odometry. IROS’18
  • 開源做的非常好,給的信息非常詳細,但公開的比較晚,有上一個工作在了,所以這個工作的引用還上不去。

3.TUM monoVO:

http://vision.in.tum.de/data/datasets/mono-dataset (fisheye-only)

  • A Photometrically Calibrated Benchmark For Monocular Visual Odometry (J. Engel, V. Usenko and D. Cremers), arXiv16
  • 論文沒有正式發表,主要寫了光度標定校準等的方法以及與一些開源數據集的比對。該數據集很少人用,主要是給他們自己的DVO用。

4.TUM LSD :

  • Large-Scale Direct SLAM for Omnidirectional Cameras (D. Caruso, J. Engel and D. Cremers), In International Conference on Intelligent Robots and Systems (IROS), 2015. cited 100+

四 包含語義的數據集:

1.NYU:

http://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html

  • kinect採集的主要針對語義分割的數據集。RGB-D序列+手標label
  • Nathan Silberman, Pushmeet Kohli, Derek Hoiem, Rob Fergus, Indoor Segmentation and Support Inference from RGBD Images,ECCV’12

2.Matterport 3D:

http://niessner.github.io/Matterport/

  • 用18對RGB-D圖像生成全景圖, 主要做語義分割,有90個場景
  • Chang, Angel and Dai, Angela and Funkhouser, Thomas and Halber, Maciej and Niessner, Matthias and Savva, Manolis and Song, Shuran and Zeng, Andy and Zhang, Yinda, Matterport3D: Learning from RGB-D Data in Indoor Environments, 3DV’17

3.ScanNet:

http://www.scan-net.org/#code-and-data

  • 作者Angela Dai在BundleFusion後的下一個工作。是真實世界數據集,主要針對語義分割。數據集的生成方式是通過利用BundleFusion將不同用戶基於structure io採集的RGB-D序列重建成場景三維模型,在模型的基礎上打語義標籤,然後再將語義信息重投影回每張圖片上生成圖像的語義GT。
  • Dai, Angela and Chang, Angel X. and Savva, Manolis and Halber, Maciej and Funkhouser, Thomas and Niener, Matthias, ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes,CVPR’17

4.InteriorNet:

http://interiornet.org/

  • 目前發現的唯一一個同時包含RGB-D-IMU的(虛擬)數據集。有非常多的場景,做的也非常專業,提供了語義標籤,fisheye,模擬了快速相機運動以及圖像模糊。遺憾的是數據集還沒有開放下載。

  • Wenbin Li and Sajad Saeedi and John McCormac and Ronald Clark and Dimos Tzoumanikas and Qing Ye and Yuzhong Huang and Rui Tang and Stefan Leutenegger, InteriorNet: Mega-scale Multi-sensor Photo-realistic Indoor Scenes Dataset, British Machine Vision Conference (BMVC) 2018

5.Stanford 2D-3D-Semantics:

http://buildingparser.stanford.edu/dataset.html

  • 提供大尺度場景的三維以及語義信息,是由採集的全景圖生成,數據集主要是拿來做Building Parsing的。

Gibson+Environment

  • 提供大量真實場景的三維模型,包含紋理、幾何以及語義,以此來模擬訓練移動機器人的感知能力(AI系統)

5.Stanford 2D-3D-Semantics:

http://buildingparser.stanford.edu/dataset.html

  • 提供大尺度場景的三維以及語義信息,是由採集的全景圖生成,數據集主要是拿來做Building Parsing的。

Gibson+Environment

  • 提供大量真實場景的三維模型,包含紋理、幾何以及語義,以此來模擬訓練移動機器人的感知能力(AI系統)

6.SUNCG:

http://sscnet.cs.princeton.edu/

  • 用虛擬場景渲染單個視角的彩色深度和語義,主要拿來做基於單幀圖像的語義場景修復。

  • Shuran Song, Fisher Yu, Andy Zeng, Angel X. Chang, Manolis Savva, Thomas Funkhouser,Semantic Scene Completion from a Single Depth Image,CVPR 2017

6.SUNCG:

http://sscnet.cs.princeton.edu/

  • 用虛擬場景渲染單個視角的彩色深度和語義,主要拿來做基於單幀圖像的語義場景修復。

  • Shuran Song, Fisher Yu, Andy Zeng, Angel X. Chang, Manolis Savva, Thomas Funkhouser,Semantic Scene Completion from a Single Depth Image,CVPR 2017

推薦閱讀

如何從零開始系統化學習視覺SLAM?
從零開始一起學習SLAM | 爲什麼要學SLAM?
從零開始一起學習SLAM | 學習SLAM到底需要學什麼?
從零開始一起學習SLAM | SLAM有什麼用?
從零開始一起學習SLAM | C++新特性要不要學?
從零開始一起學習SLAM | 爲什麼要用齊次座標?
從零開始一起學習SLAM | 三維空間剛體的旋轉
從零開始一起學習SLAM | 爲啥需要李羣與李代數?
從零開始一起學習SLAM | 相機成像模型
從零開始一起學習SLAM | 不推公式,如何真正理解對極約束?
從零開始一起學習SLAM | 神奇的單應矩陣
從零開始一起學習SLAM | 你好,點雲
從零開始一起學習SLAM | 給點雲加個濾網
從零開始一起學習SLAM | 點雲平滑法線估計
從零開始一起學習SLAM | 點雲到網格的進化
從零開始一起學習SLAM | 理解圖優化,一步步帶你看懂g2o代碼
從零開始一起學習SLAM | 掌握g2o頂點編程套路
從零開始一起學習SLAM | 掌握g2o邊的代碼套路
零基礎小白,如何入門計算機視覺?
SLAM領域牛人、牛實驗室、牛研究成果梳理
我用MATLAB擼了一個2D LiDAR SLAM
可視化理解四元數,願你不再掉頭髮
最近一年語義SLAM有哪些代表性工作?
視覺SLAM技術綜述
彙總 | VIO、激光SLAM相關論文分類集錦
研究SLAM,對編程的要求有多高?
2018年SLAM、三維視覺方向求職經驗分享
2018年SLAM、三維視覺方向求職經驗分享
深度學習遇到SLAM | 如何評價基於深度學習的DeepVO,VINet,VidLoc?
視覺SLAM關鍵方法總結
SLAM方向公衆號、知乎、博客上有哪些大V可以關注?
SLAM實驗室
SLAM方向國內有哪些優秀公司?
SLAM面試常見問題

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章