VOC數據庫詳解（個人記錄）

原創

2020-06-16 14:49

官網鏈接：http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

PASCAL VOC挑戰賽是視覺對象的分類識別和檢測的一個基準測試，提供了檢測算法和學習性能的標準圖像註釋數據集和標準的評估系統。PASCAL VOC圖片集包括20個目錄：人類;動物(鳥、貓、牛、狗、馬、羊);交通工具(飛機、自行車、船、公共汽車、小轎車、摩托車、火車);室內(瓶子、椅子、餐桌、盆栽植物、沙發、電視)。PASCAL VOC挑戰賽在2012年後便不再舉辦，但其數據集圖像質量好，標註完備，非常適合用來測試算法性能。

部分主要的VOC數據庫文件夾的格式如下：

Annotations:   圖片的註釋，目標真值區域,xml文件內標註了真值區域的boundingbox信息
ImageSets：    存放圖片的文件夾，有三個文件夾[Layout][Main][Segmentation]。[Main]，它內部存儲類別標籤，-1表示負樣本，+1爲正樣本
JPEGimages：   存放所有圖片的文件夾，jpg格式的圖片,大小一般爲 500*375 或 375*500
labels：       圖片的類別

VOC整體框架（摘自https://blog.csdn.net/zhayushui/article/details/80277877）：

VOCdevkit/                           # development kit
VOCdevkit/local                      #  
VOCdevkit/result                     # 

VOCdevkit/VOC2007                    # image sets, annotations, etc.  重點關注
VOCdevkit/VOC2007/Annotations        # 目標真值區域,xml文件內標註了真值區域的boundingbox信息
VOCdevkit/VOC2007/ImageSets          # 類別標籤,ImageSets 中有三個文件夾[Layout][Main][Segmentation]，分類識別我們只關注[Main]，它內部存儲類別標籤，-1表示負樣本，+1爲正樣本
VOCdevkit/VOC2007/JPEGImages         # jpg格式圖像,大小一般爲 500*375 或 375*500
VOCdevkit/VOC2007/SegmentationClass  #
VOCdevkit/VOC2007/SegmentationObjec  #

VOCdevkit/VOCcode/                   # VOC utility code
VOCdevkit/devkit_doc.pdf             # VOC2007數據集說明文檔,除了person數量較多，其他類別樣本個數不算多，在如此小的數據集上，深度學習能獲得較高的分類識別結果，足以說明深度學習的強大性能。
VOCdevkit/*.m                        # 其他m執行文件

Annotations:存放每張圖片的XML文件，該文件內容有每張圖片目標的BBOX座標、圖片名稱、類別等信息，文件的內容具體爲：

<annotation>  
	<folder>VOC2012</folder>                             
	<filename>2007_000392.jpg</filename>                  //文件名  
	<source>                                            //圖像來源（不重要）  
		<database>The VOC2007 Database</database>  
		<annotation>PASCAL VOC2007</annotation>  
		<image>flickr</image>  
	</source>  
	<size>                //圖像尺寸（長寬以及通道數）                        
		<width>500</width>  
		<height>332</height>  
		<depth>3</depth>  
	</size>  
	<segmented>1</segmented>      //是否用於分割（在圖像物體識別中01無所謂）  
	<object>                              //檢測到的物體  
		<name>horse</name>                //物體類別  
		<pose>Right</pose>                //拍攝角度  
		<truncated>0</truncated>          //是否被截斷（0表示完整）  
		<difficult>0</difficult>   //目標是否難以識別（0表示容易識別）  
		<bndbox>                  //bounding-box（包含左下角和右上角xy座標）  
			<xmin>100</xmin>  
			<ymin>96</ymin>  
			<xmax>355</xmax>  
			<ymax>324</ymax>  
		</bndbox>  
	</object>  
	<object>                                      //檢測到多個物體  
		<name>person</name>  
		<pose>Unspecified</pose>  
		<truncated>0</truncated>  
		<difficult>0</difficult>  
		<bndbox>  
			<xmin>198</xmin>  
			<ymin>58</ymin>  
			<xmax>286</xmax>  
			<ymax>197</ymax>  
		</bndbox>  
	</object>  
</annotation>

123

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

VOC數據庫詳解（個人記錄）

爲什麼要⽤ Foundry

【筆記】動手學深度學習-預備知識

py發送email

MySQL 分庫分表方案，總結太全了。。

Qt/C++音視頻開發71-指定mjpeg/h264格式採集本地攝像頭/存儲文件到mp4/設備推流/採集推流

WPF開源輕便、快速的桌面啓動器

公司來了個新同事，把 DDD 運用得爐火純青！

OSError:Unable to open file （file signature not found）

將COCO格式數據轉爲VOC格式

存在多個python的虛擬環境，如何找到對應的pip進行下載

matplotlib.pyplot使用方法

FSA-Net: Learning Fine-Grained Structure Aggregation for Head Pose Estimation from a Single Image

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結