SLAM、三維重建，語義相關數據集大全

作者朱尊傑，公衆號：計算機視覺life，編輯成員

一主要針對自動駕駛：

1.KITTI數據集：

http://www.cvlibs.net/datasets/kitti/index.php（RGB+Lidar+GPS+IMU）

KITTI數據集由德國卡爾斯魯厄理工學院和豐田美國技術研究院聯合創辦，是目前國際上最大的自動駕駛場景下的計算機視覺算法評測數據集。該數據集用於評測立體圖像 (stereo)，光流 (optical flow)，視覺里程計(visual odometry)，3D物體檢測 (object detection) 和 3D跟蹤 (tracking)等計算機視覺技術在車載環境下的性能。KITTI包含市區、鄉村和高速公路等場景採集的真實圖像數據，每張圖像中最多達15輛車和30個行人，還有各種程度的遮擋與截斷。
Andreas Geiger and Philip Lenz and Raquel Urtasun, Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite, CVPR’12, cited by 3000+
該數據集論文共8頁，主要由三部分組成：Introduction、Challenges and Methodolgy、Evaluation：
- Introduction：列一下相關的開源數據集；說明自己做這個數據集的原因（現有數據集都過分簡單，嚴格限制路況從而沒有包含現實路上的實際情況等）；介紹自己數據集的採集方式、包含的內容等；
- Challenges and Methodolgy：主要寫了數據採集會遇到的問題以及要做的所有事情。如，傳感 setup；標定方式；groundtruth怎麼獲取;如何選取好的數據作爲benchmark；評價標準。
- Experimental Evaluation：將state-of-the-art的系統在自己的數據集上跑結果&對比&分析。

2.Oxford數據集：

http://robotcar-dataset.robots.ox.ac.uk/datasets/（RGB+Lidar+GPS+IMU）

自動駕駛數據集。對牛津的一部分連續的道路進行了上百次數據採集，收集到了多種天氣行人和交通情況下的數據，也有建築和道路施工時的數據，總的數據長度達1000小時以上。
W. Maddern, G. Pascoe, C. Linegar and P. Newman, “1 Year, 1000km: The Oxford RobotCar Dataset” The International Journal of Robotics Research (IJRR), 2016. cited by 200+

3.其餘自動駕駛相關數據集有：

Cityscape, Comma.ai, BDDV, TORCS, Udacity, GTA, CARLA, Carcraft

二包含Depth的SLAM與三維重建數據集：

1.ASL Kinect數據集

[http://projects.asl.ethz.ch/datasets/doku.php](https://projects.asl.ethz.ch/datasets/doku.php?id=kmavvisualinertialdatasets)

由Kinect採集的包含三種不同難度的27個序列，GT得自Vicon，採集場景如下：

F. Pomerleau, S. Magnenat, F. Colas, M. Liu, R. Siegwart, “Tracking a Depth Camera: Parameter Exploration for Fast ICP”, IROS 2011， cited 91
論文主要內容：開源了一個基於ROS的模塊化的ICP庫,可以快速的測試不同變種ICP的參數和性能; 然後開源自己採集的這個數據集，並在該數據集的基礎上做實驗，考慮了depth的噪聲，採集頻率，FOV等因素對ICP的影響。

2.ASL RGB-D 數據集

http://projects.asl.ethz.ch/datasets/doku.phpid=kmavvisualinertialdatasets#downloads

就一個序列，但是其論文主要是提出一個系統，不是將開源數據集作爲貢獻。數據集：RGB-D，軌跡的GT來自Vicon，並用Lidar得到場景結構的GT（點雲）
Helen Oleynikova, Zachary Taylor, Marius Fehr, Juan Nieto, and Roland Siegwart, “Voxblox: Building 3D Signed Distance Fields for Planning”, IROS’17, cited 40
這篇論文主要做的問題是機器人路徑規劃需要的建圖：是用 Euclidean Signed Distance Fields (ESDFs) 而非 Octomap（路徑規劃常用地圖）來建立四軸飛行器優化路徑需要的地圖；他們的主要貢獻是提出方法使得在飛行器上基於CPU能實時地完成從建立的TSDF圖中提取ESDF並完成路徑規劃。

3.TUM RGB-D：

http://vision.in.tum.de/data/datasets/rgbd-dataset/download

數據集包含一些室內的序列，在不同的紋理下，不同的光照和不同的結構條件，從Kinect傳感器採集到的數據中分別去評估物體的重建和SLAM/視覺里程計的性能。但是這個數據集還是沒有完整的IMU。
J. Sturm and N. Engelhard and F. Endres and W. Burgard and D. Cremers，A Benchmark for the Evaluation of RGB-D SLAM Systems， IROS’12， cited 1200+

4.ICL-NUIM:

http://www.doc.ic.ac.uk/~ahanda/VaFRIC/iclnuim.html

虛擬數據集，但是沒有IMU。該集旨在對RGB-D、視覺測距和SLAM算法進行基準測試。兩個不同的場景（起居室和辦公室場景）提供了基本事實。客廳具有3D表面地面實況以及深度圖和相機姿勢，用於標記相機軌跡而且還用於重建。辦公室場景僅帶有軌跡數據，並且沒有任何明確的3D模型。
A. Handa and T. Whelan and J.B. McDonald and A.J. Davison， A Benchmark for {RGB-D} Visual Odometry, {3D} Reconstruction and {SLAM} ，ICRA‘14，cited 340

5.VaFRIC：

http://www.doc.ic.ac.uk/~ahanda/VaFRIC/index.html

虛擬數據集，沒有IMU。ICL-NUIM的同一個團隊，這個數據集只有一個目的,測試不同曝光時間對相機跟蹤的影響,我的想法的萌芽。網站有提供一些做虛擬數據集的方法
A. Handa and R. A. Newcombe and A. Angeli and A. J. Davison， Real-Time Camera Tracking: When Is High Frame-Rate Best? , ECCV’12 , cited 100+

三不含Depth的SLAM數據集：

1.ASL EuRoC：

http://projects.asl.ethz.ch/datasets/doku.phpid=kmavvisualinertialdatasets

雙目RGB+IMU,GT來自於Vicon和Lidar，EuRoC。數據集包含11個雙目序列，這些序列是由微型飛行器在兩個不同的房間和一個大型工業環境中飛行時記錄下來的。提供兩種類型的數據集: 第一個包含來自Leica多站的三維位置地面真值，並着重於視覺慣性的評估SLAM算法在一個真實的工業場景。
M. Burri, J. Nikolic, P. Gohl, T. Schneider, J. Rehder, S. Omari, M. Achtelik and R. Siegwart, The EuRoC micro aerial vehicle datasets, (IJRR’16 ) cited 258
IJRR是機器人頂刊，SCI一區，該論文應該是約稿。論文分三部分：1. 傳感器的組裝以及座標的設定；2. 所採集數據集的細節描述以及如何使用；3. 如何標定傳感器以及GT。

2.TUM VI banchmark：

http://vision.in.tum.de/data/datasets/visual-inertial-dataset (fisheye+IMU)

Schubert, D.Goll, T.Demmel, N.Usenko, V. Stuckler, J.& Cremers, D. (2018). The TUM VI Benchmark for Evaluating Visual-Inertial Odometry. IROS’18
開源做的非常好，給的信息非常詳細，但公開的比較晚，有上一個工作在了，所以這個工作的引用還上不去。

3.TUM monoVO:

http://vision.in.tum.de/data/datasets/mono-dataset （fisheye-only）

A Photometrically Calibrated Benchmark For Monocular Visual Odometry (J. Engel, V. Usenko and D. Cremers), arXiv16
論文沒有正式發表，主要寫了光度標定校準等的方法以及與一些開源數據集的比對。該數據集很少人用，主要是給他們自己的DVO用。

4.TUM LSD ：

Large-Scale Direct SLAM for Omnidirectional Cameras (D. Caruso, J. Engel and D. Cremers), In International Conference on Intelligent Robots and Systems (IROS), 2015. cited 100+

四包含語義的數據集：

1.NYU:

http://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html

kinect採集的主要針對語義分割的數據集。RGB-D序列+手標label
Nathan Silberman, Pushmeet Kohli, Derek Hoiem, Rob Fergus, Indoor Segmentation and Support Inference from RGBD Images，ECCV’12

2.Matterport 3D:

http://niessner.github.io/Matterport/

用18對RGB-D圖像生成全景圖, 主要做語義分割，有90個場景
Chang, Angel and Dai, Angela and Funkhouser, Thomas and Halber, Maciej and Niessner, Matthias and Savva, Manolis and Song, Shuran and Zeng, Andy and Zhang, Yinda, Matterport3D: Learning from RGB-D Data in Indoor Environments, 3DV’17

3.ScanNet：

http://www.scan-net.org/#code-and-data

作者Angela Dai在BundleFusion後的下一個工作。是真實世界數據集，主要針對語義分割。數據集的生成方式是通過利用BundleFusion將不同用戶基於structure io採集的RGB-D序列重建成場景三維模型，在模型的基礎上打語義標籤，然後再將語義信息重投影回每張圖片上生成圖像的語義GT。
Dai, Angela and Chang, Angel X. and Savva, Manolis and Halber, Maciej and Funkhouser, Thomas and Niener, Matthias, ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes，CVPR’17

4.InteriorNet:

http://interiornet.org/

目前發現的唯一一個同時包含RGB-D-IMU的(虛擬)數據集。有非常多的場景，做的也非常專業，提供了語義標籤，fisheye，模擬了快速相機運動以及圖像模糊。遺憾的是數據集還沒有開放下載。
Wenbin Li and Sajad Saeedi and John McCormac and Ronald Clark and Dimos Tzoumanikas and Qing Ye and Yuzhong Huang and Rui Tang and Stefan Leutenegger， InteriorNet: Mega-scale Multi-sensor Photo-realistic Indoor Scenes Dataset, British Machine Vision Conference (BMVC) 2018

5.Stanford 2D-3D-Semantics:

http://buildingparser.stanford.edu/dataset.html

提供大尺度場景的三維以及語義信息，是由採集的全景圖生成，數據集主要是拿來做Building Parsing的。

Gibson+Environment

提供大量真實場景的三維模型，包含紋理、幾何以及語義，以此來模擬訓練移動機器人的感知能力(AI系統)

5.Stanford 2D-3D-Semantics:

http://buildingparser.stanford.edu/dataset.html

提供大尺度場景的三維以及語義信息，是由採集的全景圖生成，數據集主要是拿來做Building Parsing的。

Gibson+Environment

提供大量真實場景的三維模型，包含紋理、幾何以及語義，以此來模擬訓練移動機器人的感知能力(AI系統)

6.SUNCG：

http://sscnet.cs.princeton.edu/

用虛擬場景渲染單個視角的彩色深度和語義，主要拿來做基於單幀圖像的語義場景修復。
Shuran Song, Fisher Yu, Andy Zeng, Angel X. Chang, Manolis Savva, Thomas Funkhouser，Semantic Scene Completion from a Single Depth Image，CVPR 2017

6.SUNCG：

http://sscnet.cs.princeton.edu/

用虛擬場景渲染單個視角的彩色深度和語義，主要拿來做基於單幀圖像的語義場景修復。
Shuran Song, Fisher Yu, Andy Zeng, Angel X. Chang, Manolis Savva, Thomas Funkhouser，Semantic Scene Completion from a Single Depth Image，CVPR 2017

SLAM、三維重建，語義相關數據集大全

一 主要針對自動駕駛：

1.KITTI數據集：

http://www.cvlibs.net/datasets/kitti/index.php（RGB+Lidar+GPS+IMU）

2.Oxford數據集 ：

3.其餘自動駕駛相關數據集有：

二 包含Depth的SLAM與三維重建數據集：

1.ASL Kinect數據集

[http://projects.asl.ethz.ch/datasets/doku.php](https://projects.asl.ethz.ch/datasets/doku.php?id=kmavvisualinertialdatasets)

2.ASL RGB-D 數據集

3.TUM RGB-D：

4.ICL-NUIM:

5.VaFRIC：

三 不含Depth的SLAM數據集：

1.ASL EuRoC：

2.TUM VI banchmark：

http://vision.in.tum.de/data/datasets/visual-inertial-dataset (fisheye+IMU)

3.TUM monoVO:

http://vision.in.tum.de/data/datasets/mono-dataset （fisheye-only）

4.TUM LSD ：

四 包含語義的數據集：

1.NYU:

2.Matterport 3D:

3.ScanNet：

4.InteriorNet:

5.Stanford 2D-3D-Semantics:

5.Stanford 2D-3D-Semantics:

6.SUNCG：

6.SUNCG：

推薦閱讀

一主要針對自動駕駛：

2.Oxford數據集：

二包含Depth的SLAM與三維重建數據集：

三不含Depth的SLAM數據集：

四包含語義的數據集：