人工智能數據集（資源篇）（更新於2020.04.19）

收藏：全網最大機器學習數據集，視覺、NLP、音頻都在這了
 280萬分割掩碼，谷歌Open Images數據集再更新
 從圖像中檢測和識別表格，北航&微軟提出新型數據集TableBank
人類穿着數據集3DPeople發佈，微軟建立人工智能商學院 | AI一週學術
 數據集查找神器！100個大型機器學習數據集都彙總在這了 | 資源
 【收藏】8款大型機器學習數據集頂級資源

計算機視覺

自然語言處理

語音
Piano-midi.de: 古典鋼琴曲
Nottingham : 超過 1000 首民謠
MuseData: 古典音樂評分的電子圖書館
JSB Chorales: 四部協奏曲
2000 HUB5 English：最近在 Deep Speech 論文中使用的英語語音數據，從百度獲取。
LibriSpeech：包含文本和語音的有聲讀物數據集。由多個朗讀者閱讀的近 500 小時的各種有聲讀物演講內容組成，包含帶有文本和語音的章節。
VoxForge：帶口音的清晰英語語音數據集。適用於提升不同口音或語調魯棒性的案例。
TIMIT：英語語音識別數據集。
CHIME：嘈雜的語音識別挑戰數據集。數據集包含真實、仿真和乾淨的錄音。真實錄音由 4 個揚聲器在 4 個嘈雜位置的近 9000 個錄音構成，仿真錄音由多個語音環境和清晰的無噪聲錄音結合而成。
TED-LIUM：TED 演講的音頻轉錄。1495 個 TED 演講錄音以及這些錄音的文字轉錄。
Google Audioset：擴展了 632 個音頻分類樣本，並從 YouTube 視頻中提取了 2，084，320 個人類標記的 10 秒聲音片段。

無人駕駛
Uber 2B trip data：首次展示 2 百萬公里的出行數據。
Google-Landmarks-v2：谷歌開源的最大地標數據集包含500萬張圖片和200000個地標。
Uber 2B trip data：首次展示 2 百萬公里的出行數據。
本田公佈104小時駕駛行爲數據集：本田最近與波士頓大學合作，公佈了在舊金山灣區採集的104小時**駕駛行爲數據集，總體積大約150GB。收集了包括GPS、圖像、激光雷達、汽車導航、司機駕駛行爲等方面的信息。
DBNet數據集：廈門大學 SCSC 實驗室李軍教授團隊與上海交大 MVIG 實驗室盧策吾教授團隊聯合發佈大規模駕駛行爲數據集。DBNet 是專爲研究駕駛行爲的策略學習而設置的。DBNet 數據集記錄了視頻、激光雷達點雲，以及對應的資深駕駛員（駕齡超過 10 年）的真實駕駛行爲。
KITTI：由德國卡爾斯魯厄理工學院和豐田美國技術研究院聯合創辦，是目前國際上最大的自動駕駛場景下的計算機視覺算法評測數據集。該數據集用於評測立體圖像(stereo)，光流(optical flow)，視覺測距(visual odometry)，3D物體檢測(object detection)和3D跟蹤(tracking)等計算機視覺技術在車載環境下的性能。KITTI包含市區、鄉村和高速公路等場景採集的真實圖像數據，每張圖像中最多達15輛車和30個行人，還有各種程度的遮擋與截斷。整個數據集由389對立體圖像和光流圖，39.2 km視覺測距序列以及超過200k 3D標註物體的圖像組成，以10Hz的頻率採樣及同步。
comma2k19：comma.ai 發佈了 comma2k19, 這是加利福尼亞280高速公路上超過33小時通勤的數據集。這意味着在加利福尼亞州聖何塞和舊金山之間20公里的高速公路上行駛了2019段，每段1分鐘。 comma2k19是一個完全可重現且可擴展的數據集。數據採用comma EONs收集，其傳感器類似於任何現代智能手機，包括道路相機，手機GPS，溫度計和9軸IMU。此外，EON還使用comma grey panda捕獲原始GNSS測量值和汽車發送的所有CAN數據。
Berkeley DeepDrive BDD100k：這是目前最大的自動駕駛數據集。裏面有超過 1,100 多個小時駕駛體驗的視頻，包含10 萬個在一天中不同時段以及在不同天氣條件下的數據。
百度 Apolloscapes：大型數據集，定義了26種不同的語義項，如汽車，自行車，行人，建築物，路燈等。
Comma.ai：超過7個小時的高速公路駕駛視頻。裏面的數據包括汽車的速度、加速度、轉向角和GPS座標。
城市景觀數據集：記錄50個不同城市的城市街道場景的大型數據集。
CSSAD數據集：包含自動車輛的感知和導航等數據，但着重於發達國家的道路。
麻省理工學院AGE實驗室（MIT AGE Lab:）：在AgeLab收集的1,000多小時多傳感器駕駛數據集的樣本。
LISA：智能和安全汽車實驗室，加州大學聖地亞哥分校數據集：該數據集包括交通標誌，車輛檢測，交通信號燈和軌跡模式。
博世小型交通燈數據集（Bosch Small Traffic Light Dataset）：用於深入學習的小交通燈數據集。
LaRa交通燈識別（LaRa Traffic Light Recognition）：巴黎交通燈的數據集。
WPI 數據集：交通燈、行人和車道檢測的數據集。
牛津的機器人汽車：這個數據集來自牛津的機器人汽車，它於一年時間內在英國牛津的同一條路上，反反覆覆跑了超過100次，捕捉了天氣、交通和行人的不同組合，以及建築和道路工程等長期變化。
KUL比利時交通標誌數據集：來自比利時法蘭德斯地區數以千計的實體交通標誌的超過10000條註釋。
MIT AGE Lab：在AgeLab收集的1,000多小時多傳感器駕駛數據集的樣本。

醫療
COVID-CT 數據集：加州大學聖地亞哥分校UCSD、Petuum的研究者構建了一個開源的 COVID-CT 數據集，其中包含 275 個 COVID-19 檢測呈陽性的 CT 圖像，有助於使用深度學習方法分析病人的 CT 圖像並預測其是否患有新冠的相關研究和開發。
歐盟傳染病監測圖集：
默克分子活動挑戰：
Musk dataset: Musk dataset 描述了以不同構造出現的分子。每個分子都是 musk 或 non-musk，且其中一個構造決定了這一特性。
Health Data：可搜索的主題包括醫療設備、環境衛生、藥物濫用、精神健康等等。
頭部 CT 掃描數據集：491 次掃描的 CQ500 數據集。
CheXpert：斯坦福發佈，內含224316X光胸部圖片，共涉及65,240名患者。數據量級和標註精準度都非常高。標註了 14 種常見的胸部放射影像觀察結果。
吳恩達醫學影像數據集：含有4萬張人體上肢端的X光片的數據集MURA，並用這個數據集訓練CNN尋找並定位X光片的異常部分。數據集要等到2月纔會公佈，可以持續關注Stanford ML
MIMIC-CXR：斯坦福與麻省理工學院的聯合發佈，內含371,920張帶標籤的胸部X射線圖片，數據量級和標註精準度都非常高
慢性病數據（Chronic disease data）：美國各地慢性病指標的數據。
MIMIC-III：MIT計算生理學實驗室的公開數據集，標記了約40000名重症監護患者的健康數據，包括人口統計學、生命體徵、實驗室測試、藥物等維度。

金融和經濟
Quandl：裏面有很多經濟和金融數據，你可以使用這些數據建立預測經濟指標或股價的模型。
世界銀行開放數據（World Bank Open Data）：涵蓋世界各地人口統計、大量經濟和發展指標的數據集。
國際貨幣基金組織的數據（IMF Data）：國際貨幣基金組織公佈關於國際金融、債務率、外匯儲備、商品價格和投資的數據。
英國金融時報金融時報市場數據（Financial Times Market Data：）：裏面有來自世界各地的最新金融市場信息，包括股票價格指數、商品和外匯。
谷歌趨勢（Google Trends）：觀察和分析有關互聯網搜索活動和世界各地新聞故事趨勢的數據。
美國經濟協會(AEA)：這這裏你可以找到美國宏觀經濟的相關數據。

公共政府數據集
Data USA: 最全面的可視化美國公共數據。地址：
歐盟性別統計數據庫：
荷蘭國家地質研究數據：
聯合國開發計劃署項目：
免費圖像：免費圖像來源列表以及列表中的所有數據
GitHub 上的 BuzzFeed News：提供了來自 Buzzfeed 的數據。如果你想了解 2016 年至 2018 年期間的假新聞，那麼這個就是你的最佳選擇。
Group Lens：很多關於書籍和電影的信息。
Five Thirty Eight：有關於政治、體育、科學、健康、經濟和文化方面的數據。
Bureau of Labor Statistics：有關美國勞動力市場活躍度、工作條件和價格變化的數據。
Centers for Disease Control and Prevention：包括各種健康主題，可讓你訪問大量可瀏覽和可搜索的數據。
Pew Internet：社會學數據。
NASA 的 Earth Data：地球觀測系統數據和信息系統包含了美國宇航局的地球觀測數據，其中包含如 NC 地表溫度和碳通量等信息。
Reddit：可以搜索數據集並查找提供信息和請求信息的人。總的來說，Reddit 也是一個尋找信息並瞭解行業趨勢的好地方。
National Center for Environmental Information：涵蓋地球物理學、大氣和海洋數據。他們目前是世界上最大的氣候和天氣信息提供商。
Open Corporates：全球最大的公司開放數據集，可讓你訪問超過 1 億家公司的信息。你可以按公司或高級職員進行搜索，並在需要的時候限制你的搜索範圍。
Altmetric：提供每年發佈的最具熱度的前 100 篇文章。
The World Factbook：該數據集包含 267 個國家和地區的信息，這是一個數據寶庫，每週更新一次有關全球的信息。
歐盟開放數據門戶：
美國政府數據：
新西蘭政府數據集：
印度政府數據集：
首個官方氣象數據集公開，已訓練出20多個“青出於藍”的AI
Data.gov：在這裏可以下載到多個美國政府機構的數據。從政府預算到學校成績。但要注意的是，很多數據還有待進一步研究。
食品環境地圖集（Food Environment Atlas）：當地的食物選擇如何影響美國飲食的數據。
學校系統財務狀況（School system finances）：這裏有美國學校系統財務狀況的調查。
美國國家教育統計中心（The US National Center for Education Statistics）：來自美國和世界各地的教育機構和教育人口統計數據。
英國數據服務：英國最大的社會、經濟和人口數據收集機構。
數據美國（Data USA）：全面的、可視化的美國公共數據。
國家統計局

CMU 動作抓取數據集：
Brodatz dataset：紋理建模。
來自歐洲核子研究中心的大型強子對撞機（LHC）的 300TB 高質量數據。
紐約出租車數據集：由 FOIA 請求而獲得的紐約出租車數據，導致隱私問題。
Uber FOIL 數據集：來自 Uber FOIL 請求的紐約 4.5M 拾取數據。
Criteo 點擊量數據集：來自歐盟重新定位的大型互聯網廣告數據集。
Deep Vs Shallow Comparison ICML2007：爲實證評估深層架構而生成的數據集。
MnistVariations：在 MNIST 中引入受控變化。
RectanglesData：區分寬矩形和垂直矩形。
ConvexNonConvex：區分凸形和非凸形狀。http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/ConvexNonConvex
BackgroundCorrelation：嘈雜 MNIST 背景下相關度的控制地址：
Arcade Universe：一個人工數據集生成器，圖像包含街機遊戲 sprite，如 tetris pentomino / tetromino。該生成器基於 O. Breleux 的 bugland 數據集生成器。
以 Baby AI School 爲靈感的數據集集合。
Baby AI Shapes Dataset：區分 3 種簡單形狀。
NEXRAD：美國大氣層的多普勒雷達掃描圖。
Landsat8：整個地球表面的衛星視角圖，每隔幾周更新一次。
OpenStreetMap：免費提供整個星球的矢量數據。它包含（舊版）美國人口普查局的數據。
微軟惡意軟件數據集：每一行數據都對應着一個MachineIdentifier，相當於設備ID，也都包含一個代表着真實值的標籤HasDetections，顯示這臺設備有沒有感染惡意軟件。
Github 上的優秀公共數據集：
Data Portal：
Open Data Monitor：
Quandl Data Portal：

來源
[1] https://mp.weixin.qq.com/s/NjJRSim8DLvKoI01PMkNfw

人工智能數據集（資源篇）（更新於2020.04.19）

1. 2020年DeepMind＆UCL_深度學習講座_機器學習和AI入門

深度強化學習（資源篇）（更新於2020.06.9）

計算機視覺數據集（更新於2020.04.19）

自然語言處理數據集（更新於2020.04.19）

人工智能數據集（資源篇）（更新於2020.04.19）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結