人工智能數據集(資源篇)(更新於2020.04.19)

收藏:全網最大機器學習數據集,視覺、NLP、音頻都在這了
280萬分割掩碼,谷歌Open Images數據集再更新
從圖像中檢測和識別表格,北航&微軟提出新型數據集TableBank
人類穿着數據集3DPeople發佈,微軟建立人工智能商學院 | AI一週學術
數據集查找神器!100個大型機器學習數據集都彙總在這了 | 資源
【收藏】8款大型機器學習數據集頂級資源

計算機視覺

自然語言處理

語音
Piano-midi.de: 古典鋼琴曲
Nottingham : 超過 1000 首民謠
MuseData: 古典音樂評分的電子圖書館
JSB Chorales: 四部協奏曲
2000 HUB5 English:最近在 Deep Speech 論文中使用的英語語音數據,從百度獲取。
LibriSpeech:包含文本和語音的有聲讀物數據集。由多個朗讀者閱讀的近 500 小時的各種有聲讀物演講內容組成,包含帶有文本和語音的章節。
VoxForge:帶口音的清晰英語語音數據集。適用於提升不同口音或語調魯棒性的案例。
TIMIT:英語語音識別數據集。
CHIME:嘈雜的語音識別挑戰數據集。數據集包含真實、仿真和乾淨的錄音。真實錄音由 4 個揚聲器在 4 個嘈雜位置的近 9000 個錄音構成,仿真錄音由多個語音環境和清晰的無噪聲錄音結合而成。
TED-LIUM:TED 演講的音頻轉錄。1495 個 TED 演講錄音以及這些錄音的文字轉錄。
Google Audioset:擴展了 632 個音頻分類樣本,並從 YouTube 視頻中提取了 2,084,320 個人類標記的 10 秒聲音片段。

無人駕駛
Uber 2B trip data:首次展示 2 百萬公里的出行數據。
Google-Landmarks-v2:谷歌開源的最大地標數據集包含500萬張圖片和200000個地標。
Uber 2B trip data:首次展示 2 百萬公里的出行數據。
本田公佈104小時駕駛行爲數據集:本田最近與波士頓大學合作,公佈了在舊金山灣區採集的104小時**駕駛行爲數據集,總體積大約150GB。收集了包括GPS、圖像、激光雷達、汽車導航、司機駕駛行爲等方面的信息。
DBNet數據集:廈門大學 SCSC 實驗室李軍教授團隊與上海交大 MVIG 實驗室盧策吾教授團隊聯合發佈大規模駕駛行爲數據集。DBNet 是專爲研究駕駛行爲的策略學習而設置的。DBNet 數據集記錄了視頻、激光雷達點雲,以及對應的資深駕駛員(駕齡超過 10 年)的真實駕駛行爲。
KITTI:由德國卡爾斯魯厄理工學院和豐田美國技術研究院聯合創辦,是目前國際上最大的自動駕駛場景下的計算機視覺算法評測數據集。該數據集用於評測立體圖像(stereo),光流(optical flow),視覺測距(visual odometry),3D物體檢測(object detection)和3D跟蹤(tracking)等計算機視覺技術在車載環境下的性能。KITTI包含市區、鄉村和高速公路等場景採集的真實圖像數據,每張圖像中最多達15輛車和30個行人,還有各種程度的遮擋與截斷。整個數據集由389對立體圖像和光流圖,39.2 km視覺測距序列以及超過200k 3D標註物體的圖像組成,以10Hz的頻率採樣及同步。
comma2k19:comma.ai 發佈了 comma2k19, 這是加利福尼亞280高速公路上超過33小時通勤的數據集。 這意味着在加利福尼亞州聖何塞和舊金山之間20公里的高速公路上行駛了2019段,每段1分鐘。 comma2k19是一個完全可重現且可擴展的數據集。 數據採用comma EONs收集,其傳感器類似於任何現代智能手機,包括道路相機,手機GPS,溫度計和9軸IMU。 此外,EON還使用comma grey panda捕獲原始GNSS測量值和汽車發送的所有CAN數據。
Berkeley DeepDrive BDD100k:這是目前最大的自動駕駛 數據集。裏面有超過 1,100 多個小時駕駛體驗的視頻,包含10 萬個在一天中不同時段以及在不同天氣條件下的數據。
百度 Apolloscapes:大型數據集,定義了26種不同的語義項,如汽車,自行車,行人,建築物,路燈等。
Comma.ai:超過7個小時的高速公路駕駛視頻。裏面的數據包括汽車的速度、加速度、轉向角和GPS座標。
城市景觀數據集:記錄50個不同城市的城市街道場景的大型數據集。
CSSAD數據集:包含自動車輛的感知和導航等數據,但着重於發達國家的道路。
麻省理工學院AGE實驗室(MIT AGE Lab:):在AgeLab收集的1,000多小時多傳感器駕駛數據集的樣本。
LISA:智能和安全汽車實驗室,加州大學聖地亞哥分校數據集:該數據集包括交通標誌,車輛檢測,交通信號燈和軌跡模式。
博世小型交通燈數據集(Bosch Small Traffic Light Dataset):用於深入學習的小交通燈數據集。
LaRa交通燈識別(LaRa Traffic Light Recognition):巴黎交通燈的數據集。
WPI 數據集:交通燈、行人和車道檢測的數據集。
牛津的機器人汽車:這個數據集來自牛津的機器人汽車,它於一年時間內在英國牛津的同一條路上,反反覆覆跑了超過100次,捕捉了天氣、交通和行人的不同組合,以及建築和道路工程等長期變化。
KUL比利時交通標誌數據集:來自比利時法蘭德斯地區數以千計的實體交通標誌的超過10000條註釋。
MIT AGE Lab:在AgeLab收集的1,000多小時多傳感器駕駛數據集的樣本。

醫療
COVID-CT 數據集:加州大學聖地亞哥分校UCSD、Petuum的研究者構建了一個開源的 COVID-CT 數據集,其中包含 275 個 COVID-19 檢測呈陽性的 CT 圖像,有助於使用深度學習方法分析病人的 CT 圖像並預測其是否患有新冠的相關研究和開發。
歐盟傳染病監測圖集
默克分子活動挑戰
Musk dataset: Musk dataset 描述了以不同構造出現的分子。每個分子都是 musk 或 non-musk,且其中一個構造決定了這一特性。
Health Data:可搜索的主題包括醫療設備、環境衛生、藥物濫用、精神健康等等。
頭部 CT 掃描數據集:491 次掃描的 CQ500 數據集。
CheXpert:斯坦福發佈,內含224316X光胸部圖片,共涉及65,240名患者。數據量級和標註精準度都非常高。標註了 14 種常見的胸部放射影像觀察結果。
吳恩達醫學影像數據集:含有4萬張人體上肢端的X光片的數據集MURA,並用這個數據集訓練CNN尋找並定位X光片的異常部分。數據集要等到2月纔會公佈,可以持續關注Stanford ML
MIMIC-CXR:斯坦福與麻省理工學院的聯合發佈,內含371,920張帶標籤的胸部X射線圖片,數據量級和標註精準度都非常高
慢性病數據(Chronic disease data):美國各地慢性病指標的數據。
MIMIC-III:MIT計算生理學實驗室的公開數據集,標記了約40000名重症監護患者的健康數據,包括人口統計學、生命體徵、實驗室測試、藥物等維度。

金融和經濟
Quandl: 裏面有很多經濟和金融數據,你可以使用這些數據建立預測經濟指標或股價的模型。
世界銀行開放數據(World Bank Open Data):涵蓋世界各地人口統計、大量經濟和發展指標的數據集。
國際貨幣基金組織的數據(IMF Data):國際貨幣基金組織公佈關於國際金融、債務率、外匯儲備、商品價格和投資的數據。
英國金融時報金融時報市場數據(Financial Times Market Data:):裏面有來自世界各地的最新金融市場信息,包括股票價格指數、商品和外匯。
谷歌趨勢(Google Trends):觀察和分析有關互聯網搜索活動和世界各地新聞故事趨勢的數據。
美國經濟協會(AEA):這這裏你可以找到美國宏觀經濟的相關數據。

公共政府數據集
Data USA: 最全面的可視化美國公共數據。地址:
歐盟性別統計數據庫
荷蘭國家地質研究數據
聯合國開發計劃署項目
免費圖像:免費圖像來源列表以及列表中的所有數據
GitHub 上的 BuzzFeed News:提供了來自 Buzzfeed 的數據。如果你想了解 2016 年至 2018 年期間的假新聞,那麼這個就是你的最佳選擇。
Group Lens:很多關於書籍和電影的信息。
Five Thirty Eight:有關於政治、體育、科學、健康、經濟和文化方面的數據。
Bureau of Labor Statistics:有關美國勞動力市場活躍度、工作條件和價格變化的數據。
Centers for Disease Control and Prevention:包括各種健康主題,可讓你訪問大量可瀏覽和可搜索的數據。
Pew Internet:社會學數據。
NASA 的 Earth Data:地球觀測系統數據和信息系統包含了美國宇航局的地球觀測數據,其中包含如 NC 地表溫度和碳通量等信息。
Reddit:可以搜索數據集並查找提供信息和請求信息的人。總的來說,Reddit 也是一個尋找信息並瞭解行業趨勢的好地方。
National Center for Environmental Information:涵蓋地球物理學、大氣和海洋數據。他們目前是世界上最大的氣候和天氣信息提供商。
Open Corporates:全球最大的公司開放數據集,可讓你訪問超過 1 億家公司的信息。你可以按公司或高級職員進行搜索,並在需要的時候限制你的搜索範圍。
Altmetric:提供每年發佈的最具熱度的前 100 篇文章。
The World Factbook:該數據集包含 267 個國家和地區的信息,這是一個數據寶庫,每週更新一次有關全球的信息。
歐盟開放數據門戶
美國政府數據
新西蘭政府數據集
印度政府數據集
首個官方氣象數據集公開,已訓練出20多個“青出於藍”的AI
Data.gov:在這裏可以下載到多個美國政府機構的數據。從政府預算到學校成績。但要注意的是,很多數據還有待進一步研究。
食品環境地圖集(Food Environment Atlas):當地的食物選擇如何影響美國飲食的數據。
學校系統財務狀況(School system finances):這裏有美國學校系統財務狀況的調查。
美國國家教育統計中心(The US National Center for Education Statistics):來自美國和世界各地的教育機構和教育人口統計數據。
英國數據服務:英國最大的社會、經濟和人口數據收集機構。
數據美國(Data USA):全面的、可視化的美國公共數據。
國家統計局

CMU 動作抓取數據集
Brodatz dataset:紋理建模。
來自歐洲核子研究中心的大型強子對撞機(LHC)的 300TB 高質量數據
紐約出租車數據集:由 FOIA 請求而獲得的紐約出租車數據,導致隱私問題。
Uber FOIL 數據集:來自 Uber FOIL 請求的紐約 4.5M 拾取數據。
Criteo 點擊量數據集:來自歐盟重新定位的大型互聯網廣告數據集。
Deep Vs Shallow Comparison ICML2007:爲實證評估深層架構而生成的數據集。
MnistVariations:在 MNIST 中引入受控變化。
RectanglesData:區分寬矩形和垂直矩形。
ConvexNonConvex:區分凸形和非凸形狀。http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/ConvexNonConvex
BackgroundCorrelation:嘈雜 MNIST 背景下相關度的控制地址:
Arcade Universe:一個人工數據集生成器,圖像包含街機遊戲 sprite,如 tetris pentomino / tetromino。該生成器基於 O. Breleux 的 bugland 數據集生成器。
以 Baby AI School 爲靈感的數據集集合
Baby AI Shapes Dataset:區分 3 種簡單形狀。
NEXRAD:美國大氣層的多普勒雷達掃描圖。
Landsat8:整個地球表面的衛星視角圖,每隔幾周更新一次。
OpenStreetMap:免費提供整個星球的矢量數據。它包含(舊版)美國人口普查局的數據。
微軟惡意軟件數據集:每一行數據都對應着一個MachineIdentifier,相當於設備ID,也都包含一個代表着真實值的標籤HasDetections,顯示這臺設備有沒有感染惡意軟件。
Github 上的優秀公共數據集
Data Portal
Open Data Monitor
Quandl Data Portal

來源
[1] https://mp.weixin.qq.com/s/NjJRSim8DLvKoI01PMkNfw

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章