詳細介紹:Visual Object Classes Challenge 2012(VOC2012)

# [Visual Object Classes Challenge 2012(VOC2012)](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html#organizers)


# Contents
- [Introduction]()
- [Data]()
- [VOC2012 vs. VOC2011]()
- [Development kit]()
- [Test data]()
- [Useful software]()
- [Timetable]()
- [Submission of results]()
- [Publication policy]()
- [Citation]()
- [Database rights]()
- [Organizers]()
- [Acknowledgements]()
- [Support]()
- [History and background]()
## Introduction
 競賽的目標是從真實場景中的一些物體中識別出一類物體。訓練我們提供的,有標記的圖片實際上是一個有導師學習。20類物體列表如下:
- 人:人
- 動物:鳥,貓,牛,狗,馬,羊
- 機動車類:飛機,自行車,船,巴士,小轎車,摩托車,火車
- 室內物品:瓶子,椅子,餐桌,花瓶,沙發,電視/顯示器
主要有三類物體識別競賽:分類,檢測,和分割,動作分類,和由Imagenet驅動的大規模識別賽。另外還有一個"taster" competition


## Classification/Detection Competitions
1. Classification: 區分出一張圖片中是否存在20類中的一類中的物體。
2. Detection:給出物體的位置和類別。位置用外切矩形框表示,類別就是20類中的某一類。
參與者可以參與任意一個,或者兩個都參與。也可以選擇只解決20中物體中的任意一種,或者全部種類。參與者可以用兩種方式參與競賽:
    1. 可以用任意方法和任意數據(包括我們提供的測試數據)來訓練。
    2. 只能用我們提供的訓練/驗證數據來構建系統。


## Segmentation Competition
- Segmentation: 在每個像素上都標記出,這個像素屬於哪一類。


## Action Classification Competition
- Action Classification:靜止圖像上預測人物動作。
2012年,動作識別競賽有兩點變化。這兩點變化是基於在被測試圖片的什麼位置的人的動作被預測的:(1)需要輸出做動作的這個人的外接矩形框 (2)用一個點,點在這個人的身體的任意位置。競賽的目的是測試算法在給出任務大概位置的性能,這可能類似一個通用的人體檢測器。


## ImageNet Large Scale Visual Recognition Competition


競賽的目的是爲了做基於圖片內容估計的圖像檢索和基於大規模手工標記ImageNet數據集(10000000 標記圖片 10000+類物體)訓練的自動標記。測試圖片,不給出任何標記,算法需要標記出圖片中出現了哪些種類的物體。這個競賽的初始目標是給出圖片中含有的主要目標,並不給出位置。


更多細節可以從參考 [ImageNet](http://www.image-net.org/challenges/LSVRC/2012/index) 網站.


## Person Layout Taster Competition


- Person Layout: 預測出人頭,手,腳的外切矩形框。


## Data
點擊[這裏](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html#devkit),瞭解怎樣下載訓練/測試數據。  
這裏提供的訓練數據包括一個圖片集合,以及每張圖的標記文件,標記文件裏會給出外切矩形框和框內物體類別(含在20類之內)。注意同一張圖片可能含有多種目標,多類物品。  
 
 一個子序列被標記爲像素分割,用來做分割競賽。  
  
動作分類的圖片跟 上面的任務(分類/檢測/分割)不鏈接。這個需要標記部分人的位置,點,動作即可。是讓所有標記人員按照[實施規範](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/action_guidelines/index.html)來標記的。  


人物頭手腳分佈的圖片,測試集與主任務不銜接,所以額外標記了人的部位(頭/手/腳).  


數據將爲分兩階段發佈:
- 第一階段:先發佈一個開發工具包,由訓練/驗證集合、測試軟件(matlab)。驗證集的一個目的是在比賽之前證明測試軟件是怎樣工作的。  
- 第二階段:發佈競賽用的測試集。像VOC2008-2011一樣,測試集的數據將不會給出答案。


數據將被分出50%用於訓練,另外50%用於測試。訓練/驗證 集 和測試集的分佈一樣。數據的相關統計信息點擊[這裏](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/dbstats.html)獲取。


## Example images
 圖片例子 和 其對應的分類/檢測/分割/動作標記,還有人體佈局標記都可以在下面在線看到:
 - [分類/檢測例圖](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/examples/index.html)
 - [分割例圖](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/segexamples/index.html)
 - [動作分類例圖](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/actionexamples/index.html)
 - [人體佈局例圖](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/layoutexamples/index.html)




## VOC2012 vs. VOC2011
與2011相比,增加了分割和動作分類的量,分類檢測的標記量並沒有變化。下面列出了VOC2012與VOC2011的幾點不同:
- Classification/Detection: 2012 的數據集跟2011一樣。但是參與者不允許測試voc2011的測試集,測試服務器已經關閉了這個選項。
- Segmentation:2012數據集,包含了2008-2011的數據。在此基礎上又增加了一些。前些年分配的訓練/測試集中的數據都被包含了。總圖片數目由7062增加到9993.
- Action Classification:增加了額外的圖片。訓練/測試集都有覆蓋到。除了框,也標記了參考點,來用於無框動作分類任務。
- Person Layout Taster: 2012數據集與往年一樣。沒有額外增加標記數據。參與者不要用往年的集合來測試,服務器也關閉了相關選項。




## Development Kit 


開發工具包由 訓練/測試 數據, 用於讀取標記數據和各種競賽模擬的matlab代碼。
開發工具包是可用的:
- 下載[訓練/測試數據](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar)(2GB tar 文件)
- 下載[開發工具代碼和文檔](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCdevkit_18-May-2011.tar)(500KB tar文件)
- 下載[PDF文檔](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/devkit_doc.pdf)(500KB PDF)
- 查看用於標記VOC2011的[實施規範](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/guidelines.html)(VOC2011)
- 查看用於標記動作任務圖片的[實施規範](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/action_guidelines/index.html)




## 測試數據


測試數據會在適當的時候依據時間表來開放。注意:測試數據中,只有動作分類任務和人體佈局任務有標記。例如在2008-2011,沒有計劃去公開所有的測試集的答案。組織者將爲提供評價結果。




## 有用的軟件


以下是可能對你有用的軟件,由前幾屆的參與者貢獻:
- [Encoding Methods Evaluation Toolkit](http://www.robots.ox.ac.uk/~vgg/software/enceval_toolkit/)  
Ken Chatfield, Victor Lempitsky, Andrea Vedaldi, Andrew Zisserman
- [CPMC:Constrained Parametric Min-Cuts for Automatic Object Segmentation](http://sminchisescu.ins.uni-bonn.de/code/cpmc/)  
Joao Carreira and Cristian Sminchisescu.
- [Automatic Labelling Environment(Semantic Segmentation)](http://cms.brookes.ac.uk/staff/PhilipTorr/ale.htm)  
Lubor ladicky, Philip H.S. Torr.  
- [Discriminatively Trained Deformable Part Models](http://people.cs.uchicago.edu/~pff/latent/)  
Pedro Felzenszwalb, Ross Girshick, David McAllester,Deva Ramanan.  
- [Color Descriptors](http://staff.science.uva.nl/~ksande/research/colordescriptors/)  
Koen van de Sande, Theo Gevers, Cees Snoek.


## Timetalbe
- May 2012: 開發工具包可用。
- 25th June 2012:測試集可用。
- 23rd September 2012(Sunday,2300 hours GMT):結果提交期限 (沒有延期)
- 12th October 2012:與 [ECCV2012](http://eccv2012.unifi.it/)合辦競賽研討會

## Submission of Rusults


參與者每種方法提交一個結果即可。只是改變了算法參數不視爲用了不同的方法。所有的參數必須是單獨用訓練和測試集訓練出來的數據。  
結果需提交到指定評價服務器:
-  [PASCAL VOC Evaluation Server](http://host.robots.ox.ac.uk:8080/)
你的結果文件必須有正確的格式。格式要求的細節將會在開發工具文檔裏給出。結果文件應被打包在一個單獨文件中(tar/tgz/tar.gz)


參與者提交幾種不同的方法(注意不同結果的定義)的結果時,需要爲每種方法提供一個獨立的存檔  


除了結果文件的格式,參與者其他的注意事項:
- 聯繫方式和附屬
- 列出貢獻
- 描述方法(最少500字)-看下面  
從2011年開始,我們要求所有的提交都要包含所採用方法的簡短介紹,最少500字。這個摘要將會用於競賽研討會上的發言。如果你不能提交介紹,因爲商業原因,或者其他原因,你需要聯繫組織者討論一下。下面是兩個描述的例子,這例子是前一屆競賽的研討會上,用於分類和檢測的方法所給出的。注意,這是我們自己的總結,不是原作者的。
- #### Example Abstract: Object classification
  Based on the VOC2006  QMUL description of LSPCH by Jianguo Zhang,Cordelia Schmid,Svetlana Lazabnik, Jean Ponce in sec 2.16 of The PASCAL Visual Ojbect Classes Challenge 2006(VOC2006) Results.  
  
We make use of a bag-of-visual-words method(cf Csurka et al 2004).Regions of interest are detected with a Laplacian detector(Lindeberg, 1998), and normalized for scale. A SIFT descriptor(Lowe 2004) is then computed for each detection. 50,000 randomly selected descriptors from the training set are then vector quantized (using k-means) inti k=3000 "visual words"(300 for each of the 10 classes)。Each image is then represented by the histogram of how often each visual word is used. We also make use a spatial pyramid scheme (Lazebnik et al, CVPR 2006). We first train SVM classifiers using the chi^2 kernel based on the histograms of each level in the pyramid. The outputs of these SVM classifiers are then concatenated into a feature vector for each image and used to learn another SVM classifier based on a Gaussian RBF kernel.  
- #### Example Abstract: Object detection
Based on "Object Detection with Discriminatively Trained Part Based Models";Pedro F. Felzenszwalb, Ross B. Girshick, David McAllester and Deva Ramanan;IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.32, No. 9,September 2010.  
We introduce a discriminatively-trained parts-based model for object detection. The model consists of a coarse "root" template of HOG features(Dalal and Triggs,2006),plus a number of higher-resolution part-based HOG templates which can translate in a neighborhood relative to their default position.The responsed of the root and part templates are combined by a latent-SVM model,where the latent variables are the offsets of the parts.We introduce a novel training algorithm for the latent SVM.We also make use of an iterative training procedure exploiting "hard negative" examples, which are negative examples incoorectly classified in an earlier iteration.Finally the model is scanned across the test image in a "sliding-window" fashion a veriety of scales to produce candidate detections,followed by greedy non-maximum suppression. The model is applied to all 20 PASCAL VOC object detection challenges.  


如果你需要提交更加詳細的介紹,將其包好到結果包裏面即可。


## Best Practice


VOC競賽接受兩類參與方式:
1. 用我們提供得訓練+驗證數據訓練得到的系統
2. 用所有你自己能得到的數據來訓練得到的系統,比如說商業系統。  
兩種情況下,測試數據必須保持獨立性,不能以任何形式用於訓練或者微調系統,比如:在測試數據上實驗多次最好的參數,然後提交一個最好的。  


如果採用我們提供的數據,必須單獨使用trainval(訓練+驗證)集。其中一種方式把這個集合分爲訓練和驗證集合(如開發工具包中那樣)。其他方案比如n類交叉驗證也有同等效果。最終的系統只能在測試數據集上運行一次。  


VOC2007時,我們給出了所有數據的標註(涵蓋:訓練、驗證和測試數據),但是現在我們沒有給出測試集的標註。替代方案,你需要將測試集的數據提交到一個評價服務器上。  


算法系統在測試集上只能運行一次,所以我們不允許給服務器提交多次結果(事實上,同樣算法的提交次數是嚴格限制的),這是爲了防止測試數據被用來微調。  


我們鼓勵你在競賽後期,用評價系統來公佈測試結果。如果你希望來進行不同方法的比較,或者設計選擇,比如特徵的子集,這裏有兩種可選方式:
1. 用所有的VOC2007數據,這個數據裏,所有的標註都可用
2. 公佈用單獨用最新trainval集交叉驗證的結果  


#### 註冊評價服務器時所需要電子郵箱地址的政策
爲了得到最好的實驗效果,我們嚴格控制向服務器提交結果的次數。爲了進行有效監測,註冊評價服務器的時候,你需要提供機構的email。這是爲了防止有人用不同的郵箱提交多次結果。機構郵箱包含科學院類的,比如[email protected],包含公司類的,但是不包含個人的,比如 [email protected] 或者 [email protected].


## 發佈政策
關於競賽的所有信息基本上都在競賽的主頁上。  
每種提交的方法的細節都會被在線發佈,比如分類任務中,每個圖片的置信度;檢測任務中的每個框。這樣做可以讓其他參賽者看進行更多細節分析,然後和自己的方法做比較。發佈的結果將不會匿名-提價結果,就意味了參賽者同意了將結果發佈在網上。


## 引用
如果你用了VOC2012數據,你需要在出版物上引用下面的參考(競賽後準備好的)
@misc{pascal-voc-2012,
author = "Everingham, M. and Van~Gool, L. and Williams, C. K. I. and Winn, J. and Zisserman, A.",
title = "The {PASCAL} {V}isual {O}bject {C}lasses {C}hallenge 2012 {(VOC2012)} {R}esults",
howpublished = "http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html"}  
## 數據庫權利
VOC2012數據包含來自"flickr"網站的數據。使用這些數據必須在遵循以下條款:
- [“flickr" terms of use](http://www.flickr.com/terms.gne?legacy=1)
爲了競賽,圖片的標識,比如來源,所有者的名字被和諧掉了。關於貢獻者的細節,都包含在我們競賽後,將要發佈的數據的標註文件中。對這些數據的所有查詢或者問訊都可以直接問大賽的組織者[organizers](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html#organizers)


## 組織者


-  Mark Everingham(University of Leeds)
-  Luc van Gool(ETHZ, Zurich)
-  Chris Williams (University of Edinburgh)
-  John Winn(Microsoft Research Cambridge), [[email protected]](mailto:[email protected])
-  Andrew Zisserman (University of Oxford)


## 感謝


我們衷心感謝以下人員,花費了大量時間來標註VOC2012數據集:
Yusuf Aytar,Lucia Ballerini, Hakan Bilen,Ken Chatfield, Mircea Cimpoi,Ali Eslami,Basura Fernando,Christoph Godau,Bertan Gunyel,Phoenix/Xuan Huang,Jyri Kivinen,Markus Mathias,Kristof Overdulve,Konstantinos Rematas,Johan Van Rompay,Gilad Sharir, Mathias Vercruysse,Vibhav Vineet,Ziming Zhang,Shuai Kyle Zheng.


感謝 Yusuf Aytar對評價服務器的持續開發和維護,感謝 Ali Eslami對結果的分析.


## 支持
在模式分析,統計建模和機器學習方面擁有完美經驗的 EU-funded PASCAL2 網 支持了此次競賽的準備和運行。  
## 歷史背景
從2005年開始,主要的競賽,每年都有舉行。下面的歷史表格提供過了我們的一些選擇和在運行競賽上的經驗,給出了對2007年的方法和結果的更深層次的分析:


## PASCAL 視覺物體分類(VOC)挑戰賽
Everingham, M., Van Gool, L.,Williams, C. K. I.,Winn, J. and Zisserman,A.
internationaljournal of Computer Vision,88(2),303-338,2010  
[Bibtex source](http://host.robots.ox.ac.uk/pascal/VOC/pubs/everingham10.html#bibtex) | [Abstract](http://host.robots.ox.ac.uk/pascal/VOC/pubs/everingham10.html#abstract) | [PDF](http://host.robots.ox.ac.uk/pascal/VOC/pubs/everingham10.pdf)
 下表給出了VOC發展的主要階段。
 


Year | Statistics | New developments | Notes  
---|---|--- |---
[2005](http://host.robots.ox.ac.uk/pascal/VOC/voc2005/index.html)|Only 4 classes:bicycles,cars,motorbikes,people.Train/validation/test: 1578 images containing 2209 annotated objects|Two competitions: classification and detection|圖片來自已存在的大規模數據集,不是flickr的子集,數據集市單獨的|
[2006](http://host.robots.ox.ac.uk/pascal/VOC/voc2006/index.html)|10類:自行車,巴士,小汽車,貓,牛,狗,馬,摩托車,人,羊。訓練/驗證/測試:2618張圖片包含4754個標註物體|數據來自 flickr和微軟劍橋數據集(MSRC)| 微軟劍橋(msrc)圖片比flickr的圖片簡單,只包含一種感興趣的目標。這個數據集是獨立的。|
[2007](http://host.robots.ox.ac.uk/pascal/VOC/voc2007/index.html)|20類:  1.  人物類:人  2. 動物類:鳥、貓、牛、狗、馬  3. 機動類:飛機、自行車、船、巴士、小轎車、摩托車、火車  4.  室內:瓶子、椅子、餐桌、盆栽、沙發、電視/顯示器 訓練/驗證/測試:9963圖片包含24640標記物體|1. 分類數目由10增加到20  2. 分割競賽的引入  3.人體佈局競賽的引入 4.截斷標誌添加到了標註中 5.評價分類效果變爲平均準確度,前面是ROC-AUC|今天建立了20類,這個數目會確定下來不在變動。這將是最後一年,我們公佈測試數據的標註結果。
[2008](http://host.robots.ox.ac.uk/pascal/VOC/voc2008/index.html)|20類,數據被分爲50%訓練/驗證,50%測試。訓練/驗證數據有4340張圖片包含10363個被標註的物體|遮擋標誌加入標註文件、測試數據不在提供標註文件、分割和人體分佈集合包含2007面的圖片||
[2009](http://host.robots.ox.ac.uk/pascal/VOC/voc2009/index.html)|20類。訓練/驗證集合有7054張圖,包含17218個ROI標註物體和3211個分割|所有任務都有新圖片,前面的幾年,每年都有新的數據集發佈;允許每年增加圖片數據,意味着測試結果可以和往年進行比教;分割變成一個標準競賽(從一個嘗試)|沒有在額外圖片上添加複雜標誌(一個遺漏);測試數據標註沒有公佈|
[2010](http://host.robots.ox.ac.uk/pascal/VOC/voc2010/index.html)|20類:訓練/驗證/測試數據有10103張圖片,包含23374個ROI標註物體和4203個分割|動作識別嘗試引入;引入基於ImageNet的大規模分類競賽;用亞馬遜的自動標註平臺Turk來自動標註|計算AP的方法變了。現在使用所有的數據點而不是TREC類型的點;不發佈測試數據的標註|
[2011](http://host.robots.ox.ac.uk/pascal/VOC/voc2011/index.html)|20類:訓練/驗證包含11530張圖片,包含27450個ROI標註物體和5034個分割|動作分類嘗試增加爲10個類別和其他|佈局標註沒有完成:一些人被標註了,一些人沒有被標註|
[2012](http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html)|20類:訓練/驗證數據有27450張圖片包含27450個ROI標記物體和6929個分割|分割數據增加;動作分類的數據,在身體上額外增加了一個參考點|分類、分割、和身體佈局的數據集和2011年的一樣|
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章