--------------------------------------------------------------------------------------------------------------------

--------------------------------------------------------------------------------------------------------------------

圖像分類領域

自然語言處理領域

目標檢測定位

COCO 數據集

--------------------------------------------------------------------------------------------------------------------

海量數據集，機器學習、視覺、NLP、音頻

以下記錄是來自於https://blog.csdn.net/perfectlwz/article/details/88761651，在此感謝李老師，我看到比較好，就轉記錄到自己的博客了，如果有侵權，立馬刪掉。

分享一個,機器學習數據集,涵蓋了 視覺/NLP/音頻 三個領域

滿足大家的學習需求,這些內容僅供學習使用!

該內容由一位名叫 Nikola Pleša 的開發人員做了一個項目，將所有機器學習的大型數據集收集在一個網站上，方便大家取用。

網站目前提供約 70 個數據集，涵蓋了計算機視覺、自然語言理解和音頻三大領域，包括每個數據集的鏈接、簡介、許可類型、論文等，並且作者表示將繼續增加數據集數量。

數據集地址:https://www.datasetlist.com/

圖像分類領域

1）MNIST

引文：http://yann.lecun.com/exdb/publis/index.html#lecun-98

下載地址：https://s3.amazonaws.com/fast-ai-imageclas/mnist_png.tgz

2）CIFAR10

10 個類別，多達 60000 張的 32x32 像素彩色圖像（50000 張訓練圖像和 10000 張測試圖像），平均每種類別 擁有 6000 張圖像。廣泛用於測試新算法的性能。fast.ai 版本的數據集捨棄了原始的特殊二進制格式，轉而採用

標準的 PNG 格式，以便在目前大多數代碼庫中作爲正常的工作流使用。

引文：https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf

下載地址：https://s3.amazonaws.com/fast-ai-imageclas/cifar10.tgz

3）CIFAR100

引文：https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf

下載地址：https://s3.amazonaws.com/fast-ai-imageclas/cifar100.tgz

4）Caltech-UCSD Birds-200-2011

包含 200 種鳥類（主要爲北美洲鳥類）照片的圖像數據集，可用於圖像識別工作。分類數量：200；圖片數量： 11,788；平均每張圖片含有的標註數量：15 個局部位置，312 個二進制屬性，1 個邊框框。

引文：http://vis-www.cs.umass.edu/bcnn/

下載地址：https://s3.amazonaws.com/fast-ai-imageclas/CUB_200_2011.tgz

5）Caltech 101

包含 101 種物品類別的圖像數據集，平均每個類別擁有 40—800 張圖像，其中很大一部分類別的圖像數量固爲 50 張左右。每張圖像的大小約爲 300 x 200 像素。本數據集也可以用於目標檢測定位。

引文：http://www.vision.caltech.edu/feifeili/Fei-Fei_GMBV04.pdf

下載地址：https://s3.amazonaws.com/fast-ai-imageclas/caltech_101.tar.gz

6）Oxford-IIIT Pet

包含 37 種寵物類別的圖像數據集，每個類別約有 200 張圖像。這些圖像在比例、姿勢以及光照方面有着豐富的 變化。本數據集也可以用於目標檢測定位。

引文：http://www.robots.ox.ac.uk/~vgg/publications/2012/parkhi12a/parkhi12a.pdf

下載地址：https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz

7）Oxford 102 Flowers

包含 102 種花類的圖像數據集（主要是一些英國常見的花類），每個類別包含 40—258 張圖像。這些圖像在比 例、姿勢以及光照方面有着豐富的變化。

引文：http://www.robots.ox.ac.uk/~vgg/publications/papers/nilsback08.pdf

下載地址：https://s3.amazonaws.com/fast-ai-imageclas/oxford-102-flowers.tgz

8）Food-101

包含 101 種食品類別的圖像數據集，共有 101,000 張圖像，平均每個類別擁有 250 張測試圖像和 750 張訓練圖 像。訓練圖像未經過數據清洗。所有圖像都已經重新進行了尺寸縮放，最大邊長達到了 512 像素。

引文：https://pdfs.semanticscholar.org/8e3f/12804882b60ad5f59aad92755c5edb34860e.pdf

下載地址：https://s3.amazonaws.com/fast-ai-imageclas/food-101.tgz

9）Stanford cars

包含 196 種汽車類別的圖像數據集，共有 16,185 張圖像，分別爲 8,144 張訓練圖像和 8,041 張測試圖像，每個 類別的圖像類型比例基本上都是五五開。本數據集的類別主要基於汽車的牌子、車型以及年份進行劃分。

引文：https://ai.stanford.edu/~jkrause/papers/3drr13.pdf

下載地址：https://s3.amazonaws.com/fast-ai-imageclas/stanford-cars.tgz

自然語言處理領域

1）IMDb Large Movie Review Dataset

用於情感二元分類的數據集，其中包含 25,000 條用於訓練的電影評論和 25,000 條用於測試的電影評論，這些電 影評論的特點是兩極分化特別明顯。另外數據集裏也包含未標記的數據可供使用。

引文：http://ai.stanford.edu/~amaas/papers/wvSent_acl2011.pdf

下載地址：https://s3.amazonaws.com/fast-ai-nlp/imdb.tgz

2）Wikitext-103

超過 1 億個語句的數據合集，全部從維基百科的 Good 與 Featured 文章中提煉出來。廣泛用於語言建模，當中 包括 fastai 庫和 ULMFiT 算法中經常用到的預訓練模型。

引文：https://arxiv.org/abs/1609.07843

下載地址：https://s3.amazonaws.com/fast-ai-nlp/wikitext-103.tgz

3）Wikitext-2

Wikitext-103 的子集，主要用於測試小型數據集的語言模型訓練效果。

引文：https://arxiv.org/abs/1609.07843

下載地址：https://s3.amazonaws.com/fast-ai-nlp/wikitext-2.tgz

4）WMT 2015 French/English parallel texts

引文：https://www.cis.upenn.edu/~ccb/publications/findings-of-the-wmt09-shared-tasks.pdf

下載地址：https://s3.amazonaws.com/fast-ai-nlp/giga-fren.tgz

5）AG News

496,835 條來自 AG 新聞語料庫 4 大類別超過 2000 個新聞源的新聞文章，數據集僅僅援用了標題和描述字段。 每個類別分別擁有 30,000 個訓練樣本及 1900 個測試樣本。

引文：https://arxiv.org/abs/1509.01626

下載地址：https://s3.amazonaws.com/fast-ai-nlp/ag_news_csv.tgz

6）Amazon reviews - Full

34,686,770 條來自 6,643,669 名亞馬遜用戶針對 2,441,053 款產品的評論，數據集主要來源於斯坦福網絡分析項 目（SNAP）。數據集的每個類別分別包含 600,000 個訓練樣本和 130,000 個測試樣本。

引文：https://arxiv.org/abs/1509.01626

下載地址：https://s3.amazonaws.com/fast-ai-nlp/amazon_review_full_csv.tgz

7）Amazon reviews - Polarity

34,686,770 條來自 6,643,669 名亞馬遜用戶針對 2,441,053 款產品的評論，數據集主要來源於斯坦福網絡分析項 目（SNAP）。該子集的每個情緒極性數據集分別包含 1,800,000 個訓練樣本和 200,000 個測試樣本。

引文：https://arxiv.org/abs/1509.01626

下載地址：https://s3.amazonaws.com/fast-ai-nlp/amazon_review_polarity_csv.tgz

8）DBPedia ontology

來自 DBpedia 2014 的 14 個不重疊的分類的 40,000 個訓練樣本和 5,000 個測試樣本。

引文：https://arxiv.org/abs/1509.01626

下載地址：https://s3.amazonaws.com/fast-ai-nlp/dbpedia_csv.tgz

9）Sogou news

2,909,551 篇來自 SogouCA 和 SogouCS 新聞語料庫 5 個類別的新聞文章。每個類別分別包含 90,000 個訓練樣 本和 12,000 個測試樣本。這些漢字都已經轉換成拼音。

引文：https://arxiv.org/abs/1509.01626

下載地址：https://s3.amazonaws.com/fast-ai-nlp/sogou_news_csv.tgz

10）Yahoo! Answers

分享一個,機器學習數據集,涵蓋了視覺/NLP/音頻三個領域

10 個類別，多達 60000 張的 32x32 像素彩色圖像（50000 張訓練圖像和 10000 張測試圖像），平均每種類別擁有 6000 張圖像。廣泛用於測試新算法的性能。fast.ai 版本的數據集捨棄了原始的特殊二進制格式，轉而採用

包含 37 種寵物類別的圖像數據集，每個類別約有 200 張圖像。這些圖像在比例、姿勢以及光照方面有着豐富的變化。本數據集也可以用於目標檢測定位。

包含 102 種花類的圖像數據集（主要是一些英國常見的花類），每個類別包含 40—258 張圖像。這些圖像在比例、姿勢以及光照方面有着豐富的變化。

包含 101 種食品類別的圖像數據集，共有 101,000 張圖像，平均每個類別擁有 250 張測試圖像和 750 張訓練圖像。訓練圖像未經過數據清洗。所有圖像都已經重新進行了尺寸縮放，最大邊長達到了 512 像素。

包含 196 種汽車類別的圖像數據集，共有 16,185 張圖像，分別爲 8,144 張訓練圖像和 8,041 張測試圖像，每個類別的圖像類型比例基本上都是五五開。本數據集的類別主要基於汽車的牌子、車型以及年份進行劃分。

用於情感二元分類的數據集，其中包含 25,000 條用於訓練的電影評論和 25,000 條用於測試的電影評論，這些電影評論的特點是兩極分化特別明顯。另外數據集裏也包含未標記的數據可供使用。

超過 1 億個語句的數據合集，全部從維基百科的 Good 與 Featured 文章中提煉出來。廣泛用於語言建模，當中包括 fastai 庫和 ULMFiT 算法中經常用到的預訓練模型。

496,835 條來自 AG 新聞語料庫 4 大類別超過 2000 個新聞源的新聞文章，數據集僅僅援用了標題和描述字段。每個類別分別擁有 30,000 個訓練樣本及 1900 個測試樣本。

34,686,770 條來自 6,643,669 名亞馬遜用戶針對 2,441,053 款產品的評論，數據集主要來源於斯坦福網絡分析項目（SNAP）。數據集的每個類別分別包含 600,000 個訓練樣本和 130,000 個測試樣本。

34,686,770 條來自 6,643,669 名亞馬遜用戶針對 2,441,053 款產品的評論，數據集主要來源於斯坦福網絡分析項目（SNAP）。該子集的每個情緒極性數據集分別包含 1,800,000 個訓練樣本和 200,000 個測試樣本。

2,909,551 篇來自 SogouCA 和 SogouCS 新聞語料庫 5 個類別的新聞文章。每個類別分別包含 90,000 個訓練樣本和 12,000 個測試樣本。這些漢字都已經轉換成拼音。

來自雅虎 Yahoo! Answers Comprehensive Questions and Answers1.0 數據集的 10 個主要分類數據。每個類別分別包含 140,000 個訓練樣本和 5,000 個測試樣本。

來自 2015 年 Yelp Dataset Challenge 數據集的 1,569,264 個樣本。每個評級分別包含 130,000 個訓練樣本和 10,000 個測試樣本。

來自 2015 年 Yelp Dataset Challenge 數據集的 1,569,264 個樣本。該子集中的不同極性分別包含 280,000 個訓練樣本和 19,000 個測試樣本。

用於類識別的標準圖像數據集——這裏同時提供了 2007 與 2012 版本。2012 年的版本擁有 20 個類別。訓練數據的 11,530 張圖像中包含了 27,450 個 ROI 註釋對象和 6,929 個目標分割數據。