國內外經典開源數據大全！

點擊下方“AI算法與圖像處理”，一起進步！

重磅乾貨，第一時間送達

來源：Graviti，方向：開源數據集

本文整理了國內外經典的開源數據，包含了目標檢測、自動駕駛、人臉識別、自然語言處理、文本檢測、醫療等方向，具體如下。

一、自動駕駛領域數據集

1. KITTI數據集

KITTI數據集由德國卡爾斯魯厄理工學院和豐田美國技術研究院聯合創辦，是自動駕駛場景下的計算機視覺算法評測數據集。該數據集用於評測立體圖像(stereo)，光流(optical flow)，視覺測距(visual odometry)，3D物體檢測(object detection)和3D跟蹤(tracking)等計算機視覺技術在車載環境下的性能。

Kitti 標註情況，截取自Graviti數據可視化功能

KITTI包含市區、鄉村和高速公路等場景採集的真實圖像數據，每張圖像中最多達15輛車和30個行人，還有各種程度的遮擋與截斷。整個數據集由389對立體圖像和光流圖，39.2 km視覺測距序列以及超過200k 3D標註物體的圖像組成，以10Hz的頻率採樣及同步。總體上看，原始數據集被分類爲‘Road’, ‘City’, ‘Residential’, ‘Campus’ 和‘Person’。對於3D物體檢測，label細分爲car, van, truck, pedestrian, pedestrian(sitting), cyclist, tram以及misc組成。

數據集大小：312MB～440GBGraviti官網搜索「KITTI」查看更多相關數據集

獲取地址：https://www.graviti.cn/open-datasets/

2.CityScapes數據集

CityScapes是由奔馳自動駕駛實驗室、馬克思·普朗克研究所、達姆施塔特工業大學聯合發佈的公開數據集，專注於對城市街景的語義理解。該數據集包含50個不同的城市，在不同的季節和天氣條件下的街景中記錄的各種立體視頻序列，Cityscapes數據集共有fine和coarse兩套評測標準，前者提供5000張精細標註的圖像，後者提供5000張精細標註外加20000張粗糙標註的圖像。

數據集大小：74.15GB

獲取地址：https://gas.graviti.cn/dataset/graviti-open-dataset/CityScapes

3.BDD100K數據集

2018年5月伯克利大學AI實驗室（BAIR）發佈了公開駕駛數據集BDD100K，同時設計了一個圖片標註系統。BDD100K 數據集包含10萬段高清視頻，每個視頻約40秒\720p\30 fps 。每個視頻的第10秒對關鍵幀進行採樣，得到10萬張圖片（圖片尺寸：1280*720 ），並進行標註。10萬張圖片中，包含了不同天氣、場景、時間的圖片，而且高清、模糊的圖片都有，具有規模大，多樣化的特點。

數據集大小：6.42GB

獲取地址：https://gas.graviti.cn/dataset/data-decorators/BDD100K

4.nuScenes數據集

nuScenes數據集是由Motional（以前爲nuTonomy）的團隊開發的用於自動駕駛的公共大型數據集。Motional致力於實現安全，可靠和可達的無人駕駛環境。通過向公衆發佈部分數據，Motional旨在推進計算機視覺和自動駕駛的研究。

nuScenes數據集在波士頓和新加坡這兩個城市收集了1000個駕駛場景，這兩個城市交通繁忙,駕駛狀況極具挑戰性。nuScenes手動選擇20秒長的場景，以顯示各種駕駛操作，交通狀況和意外行爲。nuScenes收集了不同大洲的數據，能讓我們進一步研究計算機視覺算法在不同位置，天氣狀況，車輛類型，植被，道路標記以及左右手交通之間的通用性。nuScenes完整的數據集包括約40萬個關鍵幀中的140萬個攝像機圖像，39萬個LIDAR掃描數據，1.4 M個RADAR掃描數據和1.4萬個對象邊界框。其擴展包nuScenes-lidarseg的40,000個點雲和1000個場景（用於訓練和驗證的850個場景以及用於測試的150個場景）中包含了14億個標註點。

數據集大小：547.98GB

獲取地址：https://gas.graviti.cn/dataset/motional/nuScenes

二、目標檢測數據集

圖像語義分割是計算機視覺領域的經典任務之一，目的是將圖像分割成幾組具有某種特定語義含義的像素區域，並識別出每個區域的類別，最終獲得具有像素語義標註的圖像。下面爲大家介紹幾個常見的語義分割數據集。

1.COCO數據集

COCO的全稱是Common Objects in Context，是微軟團隊提供的用來進行目標識別、圖像分割等任務的數據集。

有如下幾個特點：目標分割、上下文識別、超像素分割、330K圖像（已標記> 200K）、150萬個對象實例、80個對象類別、91個物品類別、每個圖像5個字幕、250,000包含關鍵點的人。

COCO數據集支持目標檢測、實例分割、全景分割、Stuff Segmentation、關鍵點檢測、看圖說話等任務類型。圖片格式均爲JPG格式，其中目標檢測，實例分割任務對應的圖像類別爲80類；Stuff Segmentation，全景分割任務新增圖像類別53類。

數據大小：83.39GB

獲取地址：https://gas.graviti.cn/dataset/shannont/COCO

2.PASCAL VOC數據集

PASCAL VOC挑戰賽（The PASCAL Visual Object Classes ）是一個世界級的計算機視覺挑戰賽, 很多優秀的計算機視覺模型比如分類，定位，檢測，分割，動作識別等模型都是基於PASCAL VOC挑戰賽及其數據集上推出的，尤其是一些目標檢測模型（比如大名鼎鼎的R CNN系列，以及後面的YOLO，SSD等）。

從2005年到2012年，VOC挑戰賽每年組織一次。每年的內容都有所不同，從最開始的分類，到後面逐漸增加目標分類、目標檢測、目標分割、人體佈局、動作識別等內容，數據集的容量以及種類也在不斷的增加和改善。

對於現在的研究者來說比較重要的兩個年份的數據集是 PASCAL VOC 2007 與 PASCAL VOC 2012。PASCAL VOC 2012數據集是在2007年的基礎上增加而來的，包含4個大類和20個小類。

Pascal VOC2012 數據大小 ：1.86GB

獲取地址 ：https://gas.graviti.cn/dataset/data-decorators/VOC2012Detection

3.OpenImage數據集

Open Image是一個由Google發佈的包含約900萬張圖像URL的數據集，裏面的圖片通過標籤註釋被分爲6000多類。該數據集中的標籤要比ImageNet（1000類）包含更真實生活的實體存在，它足夠讓我們從頭開始訓練深度神經網絡。

數據大小：671.41GB

獲取地址：https://gas.graviti.cn/dataset/shannont/OpenImages_v6

三、人臉識別類數據集

1.YouTube Face DB數據集

YouTube Face是一個人臉視頻數據庫，旨在研究視頻中，非受限情況下的人臉識別的問題。數據集包含1,595個不同人的3,425個視頻，都是從YouTube下載的。每個主題平均包含2.15個視頻。視頻剪輯持續時間最短爲48幀，最長爲6,070幀，平均長度爲181.3幀。

數據集大小：671.41GB

獲取地址：https://gas.graviti.cn/dataset/shannont/YouTubeFacesDB

2.CelebA數據集

CelebFaces屬性數據集（CelebA）是一個大規模的面部屬性數據集，其中包含超過20萬名人圖像，每個圖像都有40個屬性註釋。該數據集中的圖像涵蓋了較大的姿勢變化和背景雜波。

CelebA具有多種多樣，數量衆多且註釋豐富的特點，包括:

10,177個不同的ID
202,599張人臉圖像
該數據集可用作以下計算機視覺任務的訓練和測試集：面部屬性識別，面部檢測，五官（或面部部分）定位以及面部編輯和合成。

數據集大小：9.55 GB

獲取地址：https://gas.graviti.cn/dataset/shannont/CelebA

3.IMDB-WIKI數據集

IMDB-WIKI人臉數據庫是有IMDB數據庫和Wikipedia數據庫組成，其中IMDB人臉數據庫包含了460,723張人臉圖片，而Wikipedia人臉數據庫包含了62,328張人臉數據庫，總共523,051張人臉數據庫，IMDB-WIKI人臉數據庫中的每張圖片都被標註了人的年齡和性別，對於年齡識別和性別識別的研究有着重要的意義。

數據集大小：276.23GB

獲取地址：https://gas.graviti.cn/dataset/hello-dataset/IMDbWiki

4.LFW數據集

LFW (Labeled Faces in the Wild) 人臉數據庫是由美國馬薩諸塞州立大學阿默斯特分校計算機視覺實驗室整理完成的數據庫，主要用來研究非受限情況下的人臉識別問題。是目前人臉識別的常用測試集，其中提供的人臉圖片均來源於生活中的自然場景，因此識別難度會增大，尤其由於多姿態、光照、表情、年齡、遮擋等因素影響導致即使同一人的照片差別也很大。並且有些照片中可能不止一個人臉出現，對這些多人臉圖像僅選擇中心的人臉作爲目標，其他區域的視爲背景干擾。

LFW數據集主要是從互聯網上搜集圖像，共有13233張人臉圖像，每張圖像均給出對應的人名，共有5749人，且絕大部分人僅有一張圖片，其中有1680 人包含兩個以上的人臉圖像。每張圖片的尺寸爲250X250，絕大部分爲彩色圖像，也存在少許黑白人臉圖片。

數據集大小：1.29GB

獲取地址：https://gas.graviti.cn/dataset/graviti-open-dataset/LFW

四、人體姿態估計類數據集

1.LSP數據集

Leeds Sports Pose 是由利茲大學計算機學院於 2010 年發佈的一個體育姿勢數據集。被分爲競技、羽毛球、棒球、體操、跑酷、足球、排球和網球幾類，共包含約 2000 個姿勢註釋，圖像均來自於 Flickr 。通過對圖像進行縮放，聚焦的人物長度約 150 像素，並且每個圖像都帶有14個關節位置的註釋，其左側和右側關節始終“以本人的視角”進行標記。

數據集標註情況，截取自Graviti數據可視化功能

數據大小：33.78MB

獲取地址：https://gas.graviti.cn/dataset/data-decorators/LeedsSportsPose

2.FLIC數據集

FLIC（Frames Labeled In Cinema）數據集由賓夕法尼亞大學-工程與應用科學學院 GRASP 實驗室於 2013 年發佈。該數據集是從好萊塢流行電影中自動收集的圖像數據集，包含5003張圖像。這些圖像截取了30部電影的整十倍的幀數，通過最先進的人物檢測器獲得。每個圖像由五個人標註10個上半身關節。此外，圖像中擁有 5 箇中值標記以保證異常值註釋具有魯棒性。最後，如果該人被遮擋或嚴重不正面，將被手動刪除。

數據集大小：1.38GB

獲取地址：https://gas.graviti.cn/dataset/data-decorators/FLIC

3.MPII Human Pose數據集

MPII Human Pose人體姿勢數據集是人體姿勢預估的一個 benchmark。數據集中包含約25000張標註圖像，標註人數超過 4萬人，涵蓋了410中人類活動。這些圖像是從 YouTube video 中抽取出來的。此外，在測試集中還收錄了身體部位遮擋、3D 軀幹、頭部方向的標註。

數據集大小：11.26GB

獲取地址：https://gas.graviti.cn/dataset/shannont/MPIIHumanPose

五、文本檢測類數據集

1.MNIST數據集

MNIST是深度學習領域的“Hello World!”。MNIST是一個手寫數字數據庫，有60000個訓練樣本集和10000個測試樣本集，每個樣本圖像的寬高爲28*28。此數據集是以二進制存儲的，不能直接以圖像格式查看，不過很容易找到將其轉換成圖像格式的工具。

數據集大小：12MB

獲取地址：https://gas.graviti.cn/dataset/data-decorators/MNIST

2.SVHN數據集

SVHN是從Google街景圖像中的門牌號獲得的一個來自現實世界的圖像數據集，用於開發機器學習和對象識別算法，同時對數據預處理和格式化的要求最低。它的風格與MNIST相似，但有更多數量級的標記數據（超過600,000位數字圖像），並且希望解決一個更加困難，難以解決的現實問題（識別自然場景圖像中的數字）。

數據集中包含10個類別，數字1～9對應標籤1～9，而“0”的標籤則爲10。訓練集中共有73257張圖像，測試集中有26032張圖像。

數據集格式：帶有字符級邊界框的原始圖像。

數據集大小：3.92GB

獲取地址：https://gas.graviti.cn/dataset/data-decorators/SVHN

3.CCPD數據集

CCPD（Chinese City Parking Dataset）數據集是一個用於車牌識別的大型國內停車場車牌數據集，是由中科大團隊建立的。該數據集在合肥市的停車場採集得來，採集時間早上7:30到晚上10:00。停車場採集人員手持Android POS機對停車場的車輛拍照並手工標註車牌位置。拍攝的車牌照片涉及多種複雜環境，包括模糊、傾斜、陰雨天、雪天等等。CCPD數據集一共包含將近30萬張圖片，每種圖片大小720x1160x3。一共包含8項，具體如下：

數據集大小：23.48GB

獲取地址：https://gas.graviti.cn/dataset/data-decorators/CCPD

六、NLP數據集

1.common voice數據集【ASR】

Common Voice 是 Mozilla 發起的一項倡議，旨在推進語音識別技術，更廣泛地爲大衆服務。Common Voice 也是一套龐大的數據庫，收錄了全球各地貢獻的語音數據，讓任何人都可以更快更輕鬆地訓練支持所有語言的語音識別程序。除了應用最廣泛的語言，common voice還收集了使用人數較少的語種語音樣本。一套豐富而又公開的語音數據集能夠幫助開發者、創業者以及各個社區縮小語言規模的鴻溝。

該數據集當前有 5,671 小時，54 種語言的語音數據。數據集中的每一條都包含了一組獨立 MP3 錄音及相應的文本文件。數據集所記錄的 7,226 小時的錄音中，有許多條數據同時包含了年齡、性別、口音等人口統計元數據，能夠訓練語音識別引擎提升其準確性。

數據集大小：50.06GB

獲取地址：https://gas.graviti.cn/dataset/hello-dataset/CommonVoiceCN

2.LibriSpeechASR 數據集【ASR】

公開數據集中最常用的英文語料，其中包含了1000小時的16kHz有聲書錄音，這些數據來自LibriVox項目的有聲讀物。數據都經過切割和整理成每條10秒左右的、經過文本標註的音頻文件，非常適合入門使用。

數據集大小：140.02GB

獲取地址：https://gas.graviti.cn/dataset/hello-dataset/LibriSpeechASR

3. 20NewsGroups 數據集【文本分類】

20newsgroups數據集是用於文本分類、文本挖據和信息檢索研究的國際標準數據集之一。數據集收集了大約20,000左右的新聞組文檔，均勻分爲20個不同主題的新聞組集合。一些新聞組的主題特別相似，還有一些卻完全不相關。

20newsgroups數據集有三個版本。第一個版本19997是原始的並沒有修改過的版本。第二個版本bydate是按時間順序分爲訓練(60%)和測試(40%)兩部分數據集，不包含重複文檔和新聞組名（新聞組，路徑，隸屬於，日期）。第三個版本18828不包含重複文檔，只有來源和主題。

20news-19997.tar.gz –原始20 Newsgroups數據集
20news-bydate.tar.gz –按時間分類; 不包含重複文檔和新聞組名(18846 個文檔)
20news-18828.tar.gz– 不包含重複文檔，只有來源和主題 (18828 個文檔)

數據集大小：44.31MB

獲取地址：https://gas.graviti.cn/dataset/data-decorators/Newsgroups20

4. Mandarin Chinese Scripted Speech Corpus 數據集【ASR】

此數據集包含了755個小時的中文普通話朗讀音頻和轉寫文本，由1080名說話人提供。

總時長爲755小時的中文普通話朗讀語音音頻和轉寫文本，語料內容爲日常用語、命令控制和短信。由 Magichub 社區開源。

獲取地址：https://gas.graviti.cn/dataset/magichub/MAGICDATAMandarinChineseReadSpeechCorpus_1

七、醫學類數據集

COVID-CT數據集

該數據集的圖像是從medRxiv，bioRxiv，NEJM，JAMA，Lancet等與COVID19相關的論文中收集的。COVID-CT-Dataset包含來自216位COVID-19患者的349張CT圖像和439張非患者的CT。圖像中，還收集了從論文中提取的元信息，如患者年齡、性別、位置、病史、掃描時間、COVID-19的嚴重程度和放射學報告。

數據集大小：370.82MB

獲取地址：https://gas.graviti.cn/dataset/data-decorators/COVID_CT

努力分享優質的計算機視覺相關內容，歡迎關注：

  
     
     
     
   
      
      
      個人微信（如果沒有備註不拉羣！）
  
     
     
     
  
     
     
     
   
      
      
      請註明：
   
      
      
      地區+學校/企業+研究方向+暱稱
  
     
     
     
  
     
     
     
   
      
      
      

  
     
     
     


下載1：何愷明頂會分享

在「AI算法與圖像處理」公衆號後臺回覆：何愷明，即可下載。總共有6份PDF，涉及 ResNet、Mask RCNN等經典工作的總結分析

下載2：終身受益的編程指南：Google編程風格指南

在「AI算法與圖像處理」公衆號後臺回覆：c++，即可下載。歷經十年考驗，最權威的編程規範！


   
   
   
 
    
    
    下載3 CVPR2021

   
   
   

   
   
   
 
    
    
    


   
   
   

   
   
   
 
    
    
    在「AI算法與圖像處理」公衆號後臺回覆：
 
    
    
    CVPR
 
    
    
    ，即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

點亮，告訴大家你也在看

本文分享自微信公衆號 - AI算法與圖像處理（AI_study）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。