VOC数据库详解（个人记录）

原創

2020-06-16 14:49

官网链接：http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试，提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录：人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC挑战赛在2012年后便不再举办，但其数据集图像质量好，标注完备，非常适合用来测试算法性能。

部分主要的VOC数据库文件夹的格式如下：

Annotations:   图片的注释，目标真值区域,xml文件内标注了真值区域的boundingbox信息
ImageSets：    存放图片的文件夹，有三个文件夹[Layout][Main][Segmentation]。[Main]，它内部存储类别标签，-1表示负样本，+1为正样本
JPEGimages：   存放所有图片的文件夹，jpg格式的图片,大小一般为 500*375 或 375*500
labels：       图片的类别

VOC整体框架（摘自https://blog.csdn.net/zhayushui/article/details/80277877）：

VOCdevkit/                           # development kit
VOCdevkit/local                      #  
VOCdevkit/result                     # 

VOCdevkit/VOC2007                    # image sets, annotations, etc.  重点关注
VOCdevkit/VOC2007/Annotations        # 目标真值区域,xml文件内标注了真值区域的boundingbox信息
VOCdevkit/VOC2007/ImageSets          # 类别标签,ImageSets 中有三个文件夹[Layout][Main][Segmentation]，分类识别我们只关注[Main]，它内部存储类别标签，-1表示负样本，+1为正样本
VOCdevkit/VOC2007/JPEGImages         # jpg格式图像,大小一般为 500*375 或 375*500
VOCdevkit/VOC2007/SegmentationClass  #
VOCdevkit/VOC2007/SegmentationObjec  #

VOCdevkit/VOCcode/                   # VOC utility code
VOCdevkit/devkit_doc.pdf             # VOC2007数据集说明文档,除了person数量较多，其他类别样本个数不算多，在如此小的数据集上，深度学习能获得较高的分类识别结果，足以说明深度学习的强大性能。
VOCdevkit/*.m                        # 其他m执行文件

Annotations:存放每张图片的XML文件，该文件内容有每张图片目标的BBOX座标、图片名称、类别等信息，文件的内容具体为：

<annotation>  
	<folder>VOC2012</folder>                             
	<filename>2007_000392.jpg</filename>                  //文件名  
	<source>                                            //图像来源（不重要）  
		<database>The VOC2007 Database</database>  
		<annotation>PASCAL VOC2007</annotation>  
		<image>flickr</image>  
	</source>  
	<size>                //图像尺寸（长宽以及通道数）                        
		<width>500</width>  
		<height>332</height>  
		<depth>3</depth>  
	</size>  
	<segmented>1</segmented>      //是否用于分割（在图像物体识别中01无所谓）  
	<object>                              //检测到的物体  
		<name>horse</name>                //物体类别  
		<pose>Right</pose>                //拍摄角度  
		<truncated>0</truncated>          //是否被截断（0表示完整）  
		<difficult>0</difficult>   //目标是否难以识别（0表示容易识别）  
		<bndbox>                  //bounding-box（包含左下角和右上角xy座标）  
			<xmin>100</xmin>  
			<ymin>96</ymin>  
			<xmax>355</xmax>  
			<ymax>324</ymax>  
		</bndbox>  
	</object>  
	<object>                                      //检测到多个物体  
		<name>person</name>  
		<pose>Unspecified</pose>  
		<truncated>0</truncated>  
		<difficult>0</difficult>  
		<bndbox>  
			<xmin>198</xmin>  
			<ymin>58</ymin>  
			<xmax>286</xmax>  
			<ymax>197</ymax>  
		</bndbox>  
	</object>  
</annotation>

123

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

VOC数据库详解（个人记录）

EXCEL中下拉菜单中添加新选项或者删除选项

Python 爬虫：Spring Boot 反爬虫的成功案例

京东科技数字化营销能力的演进与最佳实践| 京东云技术团队

Java中止线程的方式

[转帖]Oracle Exadata 学习笔记之核心特性Part1

HTTP协议相关文档

OSError:Unable to open file （file signature not found）

將COCO格式數據轉爲VOC格式

存在多個python的虛擬環境，如何找到對應的pip進行下載

matplotlib.pyplot使用方法

FSA-Net: Learning Fine-Grained Structure Aggregation for Head Pose Estimation from a Single Image

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結