語義分割數據集詳解(PASCAL-VOC2012,Vocbenchmark,Cityscapes)

在語義分割的一些論文中常常會對幾個常用的數據集進行驗證,以驗證算法的優越性,無論是在分割性能還是分割速度上。在一些模型的復現中,由於不同作者的代碼風格不同,所有我們有必要根據自己的數據格式進行稍作修改,所以對於數據集的結構瞭解是必不可少的,下面就幾種常用的分割數據集進行解析。

PASCAL-VOC2012

數據集介紹官網:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

VOC2012數據集分爲20類,包括背景爲21類,分別如下:

Person: person

Animal: bird, cat, cow, dog, horse, sheep

Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train

Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

總覽

這裏只說與圖像分割(segmentation)有關的信息,VOC2012中的圖片並不是都用於分割,用於分割比賽的圖片實例如下,包含原圖以及圖像分類分割和圖像物體分割兩種png圖。圖像分類分割是在20種物體中,ground-turth圖片上每個物體的輪廓填充都有一個特定的顏色,一共20種顏色,比如摩托車用紅色表示,人用綠色表示。而圖像物體分割則僅僅在一副圖中生成不同物體的輪廓顏色即可,顏色自己隨便填充。

數據集基本結構如下:

其中Annotations文件夾中是圖片的XML信息,xml信息包含了該圖片的基本信息,xml語言很易讀,我們從中可以輕易得出這幅圖片的一些基本信息,其中segmented一欄爲1,這裏的意思是這幅圖用於分割(因爲VOC2012中一共有10000+圖,但並不都用於分割任務,有的用以物體標識或者動作識別等),若這一欄爲0說明這幅圖不是用於圖像分割的。

ImageSets文件夾中有有四個文件夾,其中Segmentation是我們分割所需的文件,其中包含訓練,驗證檢索的.txt文件,train和val中的圖片加一起一共2913張圖。JPEGImages文件中是我們的原始圖片,這些圖片一共有17125張,我們並不是都使用,我們僅對train.txt和val.txt中列出的圖像進行使用,而其他的圖像則用於不同的任務中,用於分割的圖片在.txt文件中有詳細,。

上面我們介紹了Image,GT圖像在SegentationClass文件夾中。

從這裏也可以看出,Image文件夾中的圖像部分是用於分割任務的。

圖像分割的數據集一般都是採用上面說明的VOC2012挑戰數據集,有人說benchmark_LELEASE爲增強數據集,具體原因我不清楚,可能是因爲benchmark_LELEASE的圖片都是用於分割(一共11355張),而VOC2012僅僅部分圖片適用於分割(2913張)吧。我們自己製作數據集的時候,只需要圖像的json、xml分割信息就可以通過程序生成對應的png輪廓圖。


Cityscapes

該數據集包含如下:images_base和annotations_base分別對應這文件夾leftImg8bit(5,030 items, totalling 11.6 GB,factually 5000 items)和gtFine(30,030 items, totalling 1.1 GB)。裏面都包含三個文件夾:train、val、test。總共5000張精細釋,2975張訓練圖,500張驗證圖和1525張測試圖。
在leftImg8bit/train下有18個子文件夾對應德國的16個城市,法國一個城市和瑞士一個城市;在leftImg8bit/val下有3個子文件夾對應德國的3個城市;在leftImg8bit/test下有6個子文件夾對應德國的6個城市。

在gtFine/train下有18個子文件夾對應leftImg8bit/train裏面的文件夾,但是不一樣的leftImg8bit裏面的一張原圖,對應着gtFine裏面有6個文件分別是color.png、instanceIds.png、instanceTrainIds.png、labelIds.png、labelTrainIds.png、polygons.json。
 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章