計算機視覺相關數據集和比賽

一. ImageNet Large Scale Visual Recognition Competition (ILSVRC)

Imagenet數據集是目前深度學習圖像領域應用得非常多的一個數據集,關於圖像分類、定位、檢測等研究工作大多基於此數據集展開。Imagenet數據集有1400多萬幅圖片,涵蓋2萬多個類別;其中有超過百萬的圖片有明確的類別標註和圖像中物體位置的標註。Imagenet數據集文檔詳細,有專門的團隊維護,使用非常方便,在計算機視覺領域研究論文中應用非常廣,幾乎成爲了目前深度學習圖像領域算法性能檢驗的“標準”數據集。
這裏寫圖片描述
與Imagenet數據集對應的有一個享譽全球的“ImageNet國際計算機視覺挑戰賽(ILSVRC)”,目前包含的比賽項目有:
1.目標定位(Object localization)
給定一幅圖像,算法需要生成5個帶有置信度的類別標籤及其分別對應的目標物邊框信息。算法準確率的評估是基於與標註的類別標籤最匹配的預測標籤圖片中可能存在多個物體及其對應的標註信息和與標註的邊框信息重疊的預測邊框圖片中可能存在多個同類物體。爲什麼這樣做呢?因爲這樣就允許算法識別圖像中的多個目標物,並且當其中一個目標物確實存在於圖像中但沒有被標註出來時算法不會受到懲罰。可能說的有不清楚或不正確的地方,大家可以看下官方的評估規則
2.目標檢測(Object detection)
給定一幅圖像,算法需要生成多組(ci,si,bi) 形式的預測信息,其中ci 爲類別標籤、si 爲置信度、bi 爲邊框信息。需要注意的是,算法必須檢測出圖像中出現的每一個訓練過的目標物,漏檢和重複檢測都會受到懲罰。
3.視頻序列的目標檢測(Object detection from video)
這一項和上一項目標檢測類似。
4.場景分類(Scene classification)
這個比賽使用了Places2 dataset,比賽規則是對於給定圖像,允許算法產生5個場景分類,並挑選匹配度最高的作爲評估結果,詳看他們的評估規則吧。爲什麼這麼做呢?因爲同一幅圖片可以包含有多個場景類別,事實上同一幅圖片本來就是用多個類別標註的。
5.場景分析(Scene parsing)
這個比賽的目標是將圖像分割成與語義類別相關聯的不同圖像區域,如天空,道路,人和牀。具體規則見官網吧。

二.COCO common objects Dataset

COCO數據集由微軟贊助,其對於圖像的標註信息不僅有類別、位置信息,還有對圖像的語義文本描述,COCO數據集的開源使得近兩三年來圖像分割語義理解取得了巨大的進展,也幾乎成爲了圖像語義理解算法性能評價的“標準”數據集。Google的開源show and tell生成模型就是在此數據集上測試的。
目前包含的比賽項目有:
1.目標檢測(COCO Detection Challenge),包含兩項比賽:

  • 輸出目標物的邊框即可(using bounding box output),也就是我們常說的目標檢測(object detection)了
  • 要求把目標物從圖像中分割出來(object segmentation output),即我們所說的圖像語義分割(Semantic image segmentation)

這裏寫圖片描述
2.圖像標註(COCO Captioning Challenge)
具體說來就是一句話準確描述圖片上的信息(producing image captions that are informative and accurate)。那這個怎麼評分呢?目前是靠人工評分。
這裏寫圖片描述
3.人體關鍵點檢測(COCO Keypoint Challenge)
比賽要求是找到人在哪,然後定位到人體的一些關鍵點位置(The keypoint challenge involves simultaneously detecting people and localizing their keypoints)。
這裏寫圖片描述

三.Pascal VOC

PASCAL VOC挑戰賽是視覺對象的分類識別和檢測的一個基準測試,提供了檢測算法和學習性能的標準圖像註釋數據集和標準的評估系統。PASCAL VOC圖片集包括20個目錄:人類;動物(鳥、貓、牛、狗、馬、羊);交通工具(飛機、自行車、船、公共汽車、小轎車、摩托車、火車);室內(瓶子、椅子、餐桌、盆栽植物、沙發、電視)。PASCAL VOC挑戰賽在2012年後便不再舉辦,但其數據集圖像質量好,標註完備,非常適合用來測試算法性能。
這裏寫圖片描述

四.CIFAR

CIFAR-10包含10個類別,50,000個訓練圖像,彩色圖像大小:32x32,10,000個測試圖像。CIFAR-100與CIFAR-10類似,包含100個類,每類有600張圖片,其中500張用於訓練,100張用於測試;這100個類分組成20個超類。圖像類別均有明確標註。CIFAR對於圖像分類算法測試來說是一個非常不錯的中小規模數據集。
這裏寫圖片描述

五.THE MNIST DATABASE of handwritten digits

深度學習領域的“Hello World!”!MNIST是一個手寫數字數據集,它有60000個訓練樣本集和10000個測試樣本集,每個樣本圖像的寬高爲28*28。需要注意的是,此數據集是以二進制存儲的,不能直接以圖像格式查看。
最早的深度卷積網絡LeNet便是針對此數據集的,當前主流深度學習框架幾乎無一例外將MNIST數據集的處理作爲介紹及入門第一教程。
這裏寫圖片描述

六.KITTI

KITTI由德國卡爾斯魯厄理工學院(Karlsruhe Institute of Technology)和豐田芝加哥技術研究院(Toyota Technological Institute at Chicago)於2012年聯合創辦,是目前國際上最大的自動駕駛場景下的計算機視覺算法評測數據集。用於評測3D 目標(機動車、非機動車、行人等)檢測、3D 目標跟蹤、道路分割等計算機視覺技術在車載環境下的性能。KITTI包含市區、鄉村和高速公路等場景採集的真實圖像數據,每張圖像中多達15輛車和30個行人,還有各種程度的遮擋。
這裏寫圖片描述

七.Cityscapes

Cityscapes也是自動駕駛相關方面的數據集,重點關注於像素級的場景分割和實例標註
這裏寫圖片描述

參考資料:
深度學習視覺領域常用數據集彙總

八.人臉識別數據集LFW(Labeled Faces in the Wild)

在這個數據集上,基於深度學習的系統DeepID2可以達到99.47%的識別率。
這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章