1.JPEGImages
主要提供的是Pascal VOC所提供的所有的圖片信息(原始圖片),包括訓練圖片和測試圖片。
這些圖片就是用來進行訓練和測試驗證的圖像數據。
2.Annotations
主要存放XML格式的標籤文件,每個XML對應JPEGImage中的一張圖片。
<annotation>
<folder>VOC2012</folder>
<filename>2007_000392.jpg</filename> //文件名
<source> //圖像來源(不重要)
<database>The VOC2007 Database</database>
<annotation>PASCAL VOC2007</annotation>
<image>flickr</image>
</source>
<size> //圖像尺寸(長寬以及通道數)
<width>500</width>
<height>332</height>
<depth>3</depth>
</size>
<segmented>1</segmented> //是否用於分割(在圖像物體識別中01無所謂)
<object> //檢測到的物體
<name>horse</name> //物體類別
<pose>Right</pose> //拍攝角度
<truncated>0</truncated> //是否被截斷(0表示完整)
<difficult>0</difficult> //目標是否難以識別(0表示容易識別)
<bndbox> //bounding-box(包含左下角和右上角xy座標)
<xmin>100</xmin>
<ymin>96</ymin>
<xmax>355</xmax>
<ymax>324</ymax>
</bndbox>
</object>
<object> //檢測到多個物體
<name>person</name>
<pose>Unspecified</pose>
<truncated>0</truncated>
<difficult>0</difficult>
<bndbox>
<xmin>198</xmin>
<ymin>58</ymin>
<xmax>286</xmax>
<ymax>197</ymax>
</bndbox>
</object>
</annotation>
3.ImageSets
- Action 人的動作
- Layout 人體的具體部位
- Main 圖像物體識別的數據,需要保證train和val沒有交集(train.txt,val.txt,trainval.txt)
-train.txt 是用來訓練的圖片文件的文件名列表
-val.txt是用來驗證的圖片文件的文件名列表
-trianval.txt是用來訓練和驗證的圖片文件的文件名列表
-test.txt 是用來測試的圖片文件的文件名列表 - Segmentation 用於分割的數據
4.SegmentationObject or SegmentationClass
保存的是物體分割後的數據,在物體識別中沒有用到