深度學習數據集處理（一）獲取公開數據集

原創

Sunrise永不言弃

2019-06-11 10:55

深度學習數據集處理系列

本文介紹一些常用的深度學習關於圖像處理方面的常用公開數據集的下載鏈接，以及數據集的簡單介紹。

MNIST數據集

MNIST數據集MNIST是一個入門級的計算機視覺數據集，它包含各種手寫數字圖片：
相當於深度學習入門的“Hello World!”。下載下來的數據集被分成兩部分：60000行的訓練數據集（mnist.train）和10000行的測試數據集（mnist.test）。非常適合初學者入門深度學習，在tensorflow中文文檔中有MNIST的教程！

CIFAR10數據集

CIFAR10數據集適用於對Tensorflow有豐富經驗的用戶，並假定用戶有機器學習相關領域的專業知識和經驗。也就是說你對深度學習有了相當的基礎後，來學習CIFAR10利用卷積神經網絡的相關的訓練的步驟，就不會感覺那麼的困難了。
CIFAR10數據集着重於建立一個規範的網絡組織結構，訓練並進行評估，爲建立更大規模更加複雜的模型提供一個範例。選擇CIFAR-10是因爲它的複雜程度足以用來檢驗TensorFlow中的大部分功能，並可將其擴展爲更大的模型。與此同時由於模型較小所以訓練速度很快，比較適合用來測試新的想法，檢驗新的技術。具體教程可以參考Tensorflow中文文檔。

ImageNet數據集

ImageNet數據集ImageNet是一個按照WordNet層次結構（目前只有名詞）組織的圖像數據庫，其中層次結構的每個節點都由成百上千個圖像來描述。目前，平均每個節點有500多個圖像。希望Imagenet將成爲研究人員、教育工作者、學生和所有分享我們對圖片的熱情的人的有用資源。
目前VGG、ALEXNET、MobileNet、ResNet等系列的網絡都會選擇利用ImageNet的數據集進行網絡的性能測試，在它們的Paper上一般會比較在ISLVRC（ImageNet子集）上1000分類的性能如何·，ImageNet數據集較大，大約150G。

Pascal voc2007數據集

作爲標準數據集，Pascal voc2007 是衡量圖像分類識別能力的基準。vgg、faster-rcnn、yolo -v1、 yolo-v2、SSD都以此數據集爲最爲演示樣例。VOC數據集共包含：訓練集（5011幅），測試集（4952幅），共計9963幅圖，共包含20個種類。

fashion-mnist數據集

fashion-MNIST包含60,000個訓練圖像和10,000個測試圖像。它是一個類似MNIST的時尚產品數據庫。開發人員認爲MNIST已被過度使用，因此他們將其作爲該數據集的直接替代品。每張圖片都以灰度顯示，並與10個類別的標籤相關聯。
包括10類，總共70000張圖片。

OpenImages 數據集

Open Images Dataset是一個包含超過900萬個鏈接圖像的數據集。其中包含9,011,219張圖像的訓練集，41,260張圖像的驗證集以及125,436張圖像的測試集。它的圖像種類跨越數千個類別，且有圖像層級的標註框進行註釋。
大小爲500G，9,011,219張超過5k標籤的圖像。

MS-COCO數據集

該數據集主要有的特點如下：（1）Object segmentation（2）Recognition in Context（3）Multiple objects per image（4）More than 300,000 images（5）More than 2 Million instances（6）80 object categories（7）5 captions per image（8）Keypoints on 100,000 people。
數據集以scene understanding爲目標，主要從複雜的日常場景中截取，圖像中的目標通過精確的segmentation進行位置的標定。圖像包括91類目標，328,000影像和2,500,000個label。
主要解決3個問題：目標檢測，目標之間的上下文關係，目標的2維上的精確定位。

一些其他數據集下載地址（不做介紹。。。）

Audio-visual Face 數據集

Face Recognition 數據集

Video-based Recognition 數據集

Text Recognition 數據集

Art Recognition 數據集

Human Pose Recognition 數據集

Detection and Segmentation 數據集

Fine-Grain Recognition 數據集

Image Retrieval 數據集

Miscellaneous數據集

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

在Kaggle上免費使用GPU

Intro Kaggle提供免費訪問內核中的NVidia K80 GPU。該基準測試表明，在深度學習模型的訓練過程中，爲您的內核啓用GPU可實現12.5倍的加速。這個內核是用GPU運行的。我將運行時間與在CPU上訓練相同模型內核的運

2020-07-08 09:08:45

Windows環境下編譯 matconvnet的坑（2）

未定義函數或變量 'export_fig'。出錯 tiny_face_detector (line 197) export_fig('-dpng', '-native', '-opengl', '-transparent', out

2020-07-08 01:05:53

深度學習(1) 關於圖像卷積和卷積神經網絡（CNN)

最近由於項目組需要，需要看一篇文獻“Deep Learning from Temporal Coherence in Video”。本人也聽過一些關於深度學習，CNN方面的報告，但是其實一直都是似懂非懂，完全不瞭解他們口中

2020-07-07 23:19:57

深度學習論文: A Compact Convolutional Neural Network for Surface Defect Inspection及其PyTorch實現

A Compact Convolutional Neural Network for Surface Defect Inspection PDF:https://www.mdpi.com/1424-8220/20/7/1974/x

2020-07-07 17:00:20

深度學習論文: Pyramidal Convolution: Rethinking CNN for Visual Recognition及其PyTorch實現

深度學習論文: Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition及其PyTorch實現 Pyramidal

2020-07-07 17:00:17

Stanford-CS231n-assignment1-KNN及Jupyter Notebook配置

一. 配置我使用的是Anaconda帶的Jupyter Notebook，先在http://cs231n.github.io/assignments2019/assignment1/下載assignment1的.zip文件後可以將其解

不跑步就等肥

2020-07-07 15:12:35

Stanford-CS231n-assignment2-FullyConnectedNets

文章目錄1. layers.py2. fc_net.py3. Solver4. optim.py 1. layers.py from builtins import range import numpy as np def a

不跑步就等肥

2020-07-07 15:12:35

【記錄】爲什麼在CNN的Batch Norm中對C個channel進行歸一化

下面是cs231n-assignment2中的Spatial Batch Norm的介紹中對於此處空間歸一化的解釋，爲什麼對shape爲NCHW的圖像數據進行Batch Norm時需要計算NHW維度的mean和var If th

不跑步就等肥

2020-07-07 15:12:31

Kaggle手寫數字識別（Digit Recognizer）記錄

競賽地址 https://www.kaggle.com/c/digit-recognizer 苦於學了cs231n和pytorch之後沒有東西拿來練手，就去kaggle上找了一個入門競賽，MNIST手寫數字識別，這個比賽把MN

不跑步就等肥

2020-07-07 15:12:31

Stanford-CS231n-assignment2-BatchNormalization

文章目錄1- layers.py2- layer_utils.py加入四個求解batch/layer norm的函數3- fc_net.py的完善4- Batchnorm for deep networks訓練結果4.1- bat

不跑步就等肥

2020-07-07 15:12:31

Stanford-CS231n-assignment1-two_layer_net附中文註釋

先記錄一個很好用的畫神經網絡圖的網站：http://alexlenail.me/NN-SVG/index.html 然後因爲對神經網絡的幾個層的名字到底應該標註在哪有點疑惑，現在看了幾段代碼才弄清楚，所以標註在圖上記錄一下，如下圖（激活函

不跑步就等肥

2020-07-07 15:12:31

AlexNet中Local Response Normalization（局部響應歸一化）個人理解

文章目錄1. 公式介紹2. 代碼實現3. cs231n的cifar10數據集測試3.1 簡化AlexNet測試（無LRN）3.2 帶LRN的AlexNet測試3.3 不嚴謹結論 1. 公式介紹首先論文中已經有了公式的介紹，但是剛

不跑步就等肥

2020-07-07 15:12:31

Pytorch搭建神經網絡基本步驟（文末附pytorch實現AlexNet）

文章參考: http://pytorch123.com/SecondSection/neural_networks/ cs231n assignment2 - http://cs231n.github.io/assignment

不跑步就等肥

2020-07-07 15:12:31

博客目錄——TensorFlow學習筆記

更新時間：2019-07-09 這一系列博客是TensorFlow編程知識及源碼閱讀後整理，陸續更新~ TensorFlow學習筆記(一）：變量作用域 TensorFlow學習筆記(二）：常用方法——激活函數 TensorFl

2020-07-07 01:30:56

[3 Jun 2015 ~ 9 Jun 2015] Deep Learning in arxiv

arXiv is an e-print service in the fields of physics, mathematics, computer science, quantitative biology, quantitative

2020-07-06 23:45:22

24小時熱門文章

最新文章

最新評論文章