機器學習和數據科學中常用的公開數據集(含計算機視覺最全數據集彙總)

數據集查找器
Google Dataset Search:與Google Scholar的工作方式類似,Dataset Search 可以讓你在任何託管的地方找到數據集,無論是出版商的網站,還是數字圖書館,又或者是一個作者的網頁。它是一個非凡的數據集查找器,包含了超過2500萬個數據集。
https://toolbox.google.com/datasetsearch
Kaggle:Kaggle提供了一個龐大的數據集容器,對於熱衷於Kaggle的專家來說,數據集是足夠了的。
https://www.kaggle.com/
UCI機器學習庫:UCI的機器學習庫爲開源數據集提供了最新的資源。
http://mlr.cs.umass.edu/ml/
VisualData:按類別搜索計算機視覺數據集;它允許搜索查詢。
https://www.visualdata.io/
CMU庫:通過CMU收集的Wang Huajin Wang可以用來發現高質量的數據集。
https://guides.library.cmu.edu/machine-learning/datasets









一般數據集
住房數據集
波士頓住房數據集:包含了美國人口普查局收集的有關波士頓地區住房的信息。它是從StatLib檔案中獲取的,在許多文獻中被廣泛用於對算法進行基準測試。
https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html
地理數據集
Google-Landmarks-v2:用於地標識別和檢索的數據集。該個數據集包含了來自世界各地的5百萬張,包含20萬多個地標的圖片,這些圖片由Wiki Commons社區提供和註釋。
https://www.kaggle.com/xiuchengwang/python-dataset-download
機器學習數據集:
購物中心客戶數據集: 購物中心客戶數據集包含了特定城市中訪問購物中心的客戶信息。數據集由不同的列組成,包括性別、客戶id、年齡、年收入和支出分數。它通常用於根據年齡、收入和興趣對客戶進行細分。
https://www.kaggle.com/shwetabh123/mall-customers
IRIS數據集:IRIS數據集是一個簡單的和適合初學者的數據集,包含了有關花瓣和萼片寬度的信息。數據分爲三個類,每個類有50行,它通常用於分類和迴歸建模。
https://archive.ics.uci.edu/ml/datasets/Iris
MNIST數據集:這是一個手寫數字的數據集,它包含60000個訓練圖像和10000個測試圖像,是一個適合新手用於實現圖像分類的數據集,你可以從0到9對數字進行分類。
http://yann.lecun.com/exdb/mnist/
波士頓住房數據集:包含了美國人口普查局收集的有關波士頓地區住房的信息。它是從StatLib檔案中獲取的,在許多文獻中被廣泛用於對算法進行基準測試。
https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html
假新聞檢測數據集:它是一個CSV文件,有7796行和4列。4列分別是:新聞、標題、新聞文本、結果。
https://www.kaggle.com/c/fake-news/data
葡萄酒質量數據集:該數據集包含有關葡萄酒的不同化學信息。數據集適用於分類和迴歸任務。
https://archive.ics.uci.edu/ml/datasets/wine+quality
SOCR 數據 - 身高和重量數據集:這是初學者的基本數據集。它包含25000個18歲的不同人類的身高和體重。該數據集可以用來建立一個模型去預測一個人的身高或體重。
http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights
Titanic數據集:該數據集包含諸如姓名、年齡、性別、船上兄弟姐妹人數等信息,訓練集有891名乘客信息,測試集有418名乘客信息。
https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/problem12.html
信用卡欺詐檢測數據集:該數據集包含由信用卡進行的交易信息,且交易信息被標記爲欺詐性或真實性,這對於擁有交易系統的公司來說,建立一個檢測欺詐活動的模型是非常有用。
https://www.kaggle.com/mlg-ulb/creditcardfraud
計算機視覺數據集
xView:xView是最龐大的空中影像公開數據集之一,它包含來自世界各地複雜場景的圖像,並使用邊界框進行註釋。
http://xviewdataset.org/#dataset
ImageNet:最大的計算機視覺圖像數據集。根據WordNet的說法,它提供了一個可訪問的圖像數據庫,而且它是按層次進行組織的。
http://image-net.org/
Kinetics-700:Youtube視頻url的大規模數據集,包含以人爲中心的行動信息。它包含超過70萬個視頻。
https://deepmind.com/research/open-source/open-source-datasets/kinetics/
谷歌的開放圖像:來自谷歌人工智能的一個巨大的數據集,包含超過1000萬張圖片。
https://research.googleblog.com/2016/09/introducing-open-images-dataset.html
城市景觀數據集:這是一個用於計算機視覺項目的開源數據集,它包含在50個不同城市街道拍攝的視頻序列的高質量像素級註釋。該數據集可用於語義分割和訓練深層神經網絡來了解城市場景。
https://www.cityscapes-dataset.com/
imdbwiki數據集:imdbwiki數據集是帶有性別和年齡標籤的人臉圖像數據,是最廣泛的開源數據集之一。圖片數據來自IMDB和Wikipedia,有五百萬多個標籤圖像。
https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/
顏色檢測數據集:該數據集包含一個CSV文件,其中有865個顏色名稱及其相應的RGB(紅色、綠色和藍色)值。
https://github.com/codebrainz/color-names/blob/master/output/colors.csv
斯坦福狗數據集:它包含20580張圖片,120個不同品種的狗。
http://vision.stanford.edu/aditya86/ImageNetDogs/
情緒分析數據集
詞典編纂者情緒詞典:這個數據集是專門用於情緒分析的。數據集包含3000多個負面詞彙和2000多個積極情緒詞。
http://www.lexicoder.com/
IMDB評論:一個有趣的數據集,包含來自Kaggle的50000多個電影評論。
https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews
斯坦福情緒樹庫:帶情緒註釋的標準情緒數據集。
http://nlp.stanford.edu/sentiment/code.html
Twitter美國航空公司情緒:2015年2月美國航空公司的Twitter數據,數據分爲正面、負面和中性推文
https://www.kaggle.com/crowdflower/twitter-airline-sentiment
自然語言處理(NLP)數據集
HotspotQA數據集:問答數據集,包含了大量的自然且多轉折陳述的問題,而且對事實進行嚴格監督,以實現更易於解釋的問答系統。
https://hotpotqa.github.io/
亞馬遜評論:來自亞馬遜的龐大數據集,包含超過4500萬條亞馬遜評論。
https://snap.stanford.edu/data/web-Amazon.html
爛番茄評論:超過48萬的評論檔案(新鮮或腐爛)。
https://drive.google.com/file/d/1w1TsJB-gmIkZ28d1j7sf1sqcPmHXw352/view
英語短信垃圾收集:一個由5574條英語短信垃圾信息組成的數據集。
http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
安然電子郵件數據集:它包含超過150個用戶的大約50萬封電子郵件。
https://www.cs.cmu.edu/~enron/
推薦系統數據集:它包含來自流行網站的各種數據集,如Goodreads書評、亞馬遜產品評論、調酒數據、社交媒體數據以及其他用於構建推薦系統的數據集。
https://cseweb.ucsd.edu/~jmcauley/datasets.html
UCI Spambase數據集:將電子郵件分類爲垃圾郵件或非垃圾郵件是一項普遍而有用的任務。該數據集包含4601封電子郵件和57封有關電子郵件的元信息,你通過該數據集建立模型來過濾垃圾郵件。
https://archive.ics.uci.edu/ml/datasets/Spambase
IMDB評論:大型電影評論數據集,包括了來自IMDB網站的電影評論,其中超過25000條評論爲訓練集,25000條評論爲測試集。
http://ai.stanford.edu/~amaas/data/sentiment/
自動駕駛(自動駕駛)數據集
Waymo開放數據集:這是來自Waymo員工的一個很棒的數據集資源,包括大量的自動駕駛數據集,足以從零開始訓練深度網絡。
https://waymo.com/open/
Berkeley DeepDrive BDD100k:最大的自動駕駛汽車數據集之一,包含紐約和加利福尼亞州超過2000小時的駕駛體驗。
http://bdd-data.berkeley.edu/
博世小交通燈數據集:小交通燈數據集。
https://hci.iwr.uni-heidelberg.de/node/6132
LaRa紅綠燈識別:紅綠燈數據集。這個數據集是從巴黎收集的。
http://www.lara.prd.fr/benchmarks/trafficlightsrecognition
WPI數據集:用於交通燈、行人和車道檢測的數據集。
http://computing.wpi.edu/dataset.html
Comma.ai:它包含諸如車速、加速度、轉向角和GPS座標等詳細信息。
https://archive.org/details/comma-dataset
MIT AGE Lab:MIT AGE實驗室收集的1000多小時的多傳感器駕駛數據集的樣本。
http://lexfridman.com/automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/
LISA:加州大學聖地亞哥的智能與安全汽車實驗室的數據集:該數據集包括交通標誌、車輛檢測、交通燈和軌跡模式的數據。
http://cvrr.ucsd.edu/LISA/datasets.html
城市景觀數據集:這是一個廣泛的數據集,包含50個不同城市的街道場景。
https://www.cityscapes-dataset.com/
臨牀數據集
COVID-19數據集:艾倫人工智能研究所(Allen Institute of AI research)發佈的一個龐大的研究數據集,包含了45000多篇關於COVID-19的學術文章。
https://www.semanticscholar.org/cord19
MIC-III:由麻省理工學院計算生理學實驗室開發的公開可用數據集,包括與約40000名危重病人相關的未識別健康數據。它包括人口統計、生命體徵、實驗室檢查、藥物治療等。
https://mimic.physionet.org/
推薦系統的數據集
MovieLens:它包含來自MovieLens網站的分級數據集。
https://grouplens.org/datasets/movielens/
Jester:它包含了來自73421個用戶中100個笑話的410萬個連續評級(-10.00到+10.00)。它主要用於協同過濾。
http://www.ieor.berkeley.edu/~goldberg/jester-data/
百萬歌曲數據集:它可以用於協作和基於內容的過濾。
https://www.kaggle.com/c/msdchallenge#description
參考和來源
[1] The 50 Best Free Datasets for Machine Learning, Lionbridge AI, https://lionbridge.ai/datasets/the-50-best-free-datasets-for-machine-learning/
[2] Google Cloud Public Datasets, Google, https://cloud.google.com/public-datasets/
[3] Machine Learning and AI Datasets, Carnegie Mellon University, https://guides.library.cmu.edu/c.php?g=844845&p=6191907
[4] Big Data and AI: 30 Amazing and Free Public Data Sources, Forbes, https://www.forbes.com/sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/#f3bdeb5f8aec
[5] Awesome Autonomous Vehicles Datasets, Github, https://github.com/takeitallsource/awesome-autonomous-vehicles#datasets
[6] Fueling the Gold Rush, The Greatest Public Datasets for AI, StartupGrind, https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2
[7] Places to Find Free Datasets for Data Science Projects, Dataquest, https://www.dataquest.io/blog/free-datasets-for-projects/
[8] The Best Datasets for Natural Language Processing, Gengo AI, https://gengo.ai/datasets/the-best-25-datasets-for-natural-language-processing/
[9] Awesome Public Datasets, Github, https://github.com/awesomedata/awesome-public-datasets#machinelearning
[10] StatLib Datasets Archive, Carnegie Mellon, http://lib.stat.cmu.edu/datasets/
[11] Institutional Research and Analysis | Common Datasets | https://www.cmu.edu/ira/CDS/index.html
[12] Datasets and Project Suggestions | Andrew W. Moore | http://www.cs.cmu.edu/~awm/15781/project/data.html
[13] Datasets | Machine Learning Repository | MIT | https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/datasets/
[14] Datasets | MIT Lincoln Laboratory | https://www.ll.mit.edu/r-d/datasets
[15] Stanford Large Network Dataset Collection | Stanford University | https://snap.stanford.edu/data/
[16] Stanford Common Dataset | Stanford University | https://snap.stanford.edu/data/
[17] Datalab | UC Berkeley | http://www.lib.berkeley.edu/libraries/data-lab
[18] Exploring Datasets | Data Science at Berkeley | https://datascience.berkeley.edu/open-data-sets/
[19] DeepDrive | UC Berkeley | https://bdd-data.berkeley.edu/
[20] Machine Learning Datasets and Project Ideas — Work on real-time Data Science Projects | Data Flair | https://data-flair.training/blogs/machine-learning-datasets/
參考鏈接:https://medium.com/towards-artificial-intelligence/best-datasets-for-machine-learning-data-science-computer-vision-nlp-ai-c9541058cf4f
























































































































發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章