論文閱讀—圖像分割方法綜述(三)(arXiv:[cs:cv]20200410)

前面介紹了分割領域常用網絡架構及其相應的分割模型,本節主要介紹一些最受歡迎的圖像分割數據集及其特徵。此外還有評估基於深度學習的分割模型的常用指標。並報告了這些模型的定量結果和實驗性能。

系列回顧

論文閱讀—圖像分割方法綜述(一)(arXiv:[cs:cv]20200410)
論文閱讀—圖像分割方法綜述(二)(arXiv:[cs:cv]20200410)

5、IMAGE SEGMENTATION DATASETS

在本節中,我們提供一些最廣泛使用的圖像分割數據集的摘要。 我們將這些數據集分爲3類-2D圖像,2.5D RGB-D(顏色+深度)圖像和3D圖像-並提供有關每個數據集特徵的詳細信息。 列出的數據集具有逐像素標籤,可用於評估模型性能。

值得一提的是,其中一些工作使用數據增強來增加標記樣本的數量,特別是處理小型數據集的樣本(例如在醫學領域)。 數據擴充用於通過對圖像(即輸入圖像和分割圖)應用一組轉換(在數據空間或特徵空間中,有時有時在這兩者中)來增加訓練樣本的數量。Some typical transformations include translation, reflection, rotation, warping, scaling, color space shifting, cropping, and projections onto principal components ,事實證明,數據增強可以提高模型的性能,尤其是從有限的數據集(例如醫學圖像分析中的數據集)學習時。 在產生更快的收斂速度,減少過度擬合的機會並增強泛化性方面也可能是有益的。 對於某些小型數據集,數據增強已顯示將模型性能提高20%以上。

5.1 2D Datasets

大多數圖像分割研究都集中在2D圖像上。因此,可以使用許多2D圖像分割數據集。以下是一些最受歡迎的內容:

PASCAL VOC: 是計算機視覺中最流行的數據集之一,其帶註釋的圖像可用於5個任務-分類,分割,檢測,動作識別和person layout。文獻中報道的幾乎所有流行的分割算法都已對此數據集進行了評估。對於細分任務,有21類對象標籤-車輛,家庭,動物,飛機,自行車,船,公共汽車,汽車,摩托車,火車,瓶子,椅子,餐桌,盆栽植物,沙發,電視/顯示器,鳥,貓,牛,狗,馬,綿羊和人(如果像素不屬於任何此類,則將其標記爲背景)。該數據集分爲訓練和驗證兩套,分別具有1,464和1,449張圖像。 有一個針對實際挑戰的私人測試儀。圖43顯示了示例圖像及其按像素標記。
在這裏插入圖片描述
PASCAL Context: 是PASCAL VOC 2010檢測挑戰的擴展,它包含所有訓練圖像的逐像素標籤。 它包含400多個類(包括原始的20個類以及PASCAL VOC分割的背景),分爲三類(objects, stuff, and hybrids)。 此數據集的許多對象類別太稀疏,因此,通常會選擇59個常見類別的子集來使用。 圖44顯示了此數據集的三個樣本圖像的分割圖。
在這裏插入圖片描述

Microsoft Common Objects in Context (MS COCO):是另一種大規模的目標檢測,分割和場景描述的數據集。 COCO包含日常複雜場景的圖像,其中包含自然環境中的常見對象。 該數據集包含91種對象類型的照片,並以328k圖像的形式總共標記了250萬個實例。 它主要用於分割單個對象實例。 圖45顯示了MS COCO標籤與給定樣本圖像的先前數據集之間的差異。 檢測挑戰包括80多個類別,提供超過82k圖像進行訓練,40.5k圖像進行驗證以及測試集超過80k圖像。
在這裏插入圖片描述

Cityscapes: 是一個大型數據庫,專注於對城市街道場景的語義理解。 它包含一組來自50個城市的街道場景中記錄的立體聲視頻序列,以及一組20k弱註釋幀,以及5k幀的高質量像素級註釋。 它包括30個類別的語義和密集像素註釋,分爲8類-平面,人,車輛,建築物,物體,自然,天空和空隙。 圖46顯示了來自該數據集的四個樣本分割圖。
在這裏插入圖片描述

SiftFlow: 包括來自LabelMe數據庫子集的2688個帶註釋的圖像。 256x256像素的圖像基於8種不同的室外場景,其中包括街道,山脈,田野,海灘和建築物。 所有圖像都屬於33個語義類別之一。

Stanford background: 包含來自現有數據集(如LabelMe,MSRC和PASCAL VOC)的場景的室外圖像。 它包含715張具有至少一個前景對象的圖像。 數據集按像素進行註釋,可用於語義場景理解。 使用Amazon的Mechanical Turk(AMT)獲得了該數據集的語義和幾何標籤。

Berkeley Segmentation Dataset(BSD):包含來自30個人類受試者的1,000個Corel數據集圖像的12,000個手工標記的分割。 目的在於爲圖像分割和邊界檢測研究提供經驗基礎。 一半的分割是通過向對象呈現彩色圖像獲得的,另一半是通過呈現灰度圖像獲得的。 基於此數據的公共基準包括300張圖像的所有灰度和顏色細分。 圖像分爲200個圖像的訓練集和100個圖像的測試集。

Youtube-Objects: 包含從YouTube收集的視頻,其中包括十個PASCAL VOC類(飛機,鳥,船,汽車,貓,牛,狗,馬,摩托車和火車)的對象。 原始數據集不包含逐像素註釋(因爲它最初是爲對象檢測而開發的,具有弱註釋)。 但是Jain等 [149]手動註釋126個序列的子集,然後提取幀的子集以進一步生成語義標籤。 此數據集中總共有約10,167個帶註釋的480x360像素幀。

KITTI : 是最流行的移動機器人技術和自動駕駛數據集之一。 它包含15個小時的交通場景視頻,並以各種傳感器模式(包括高分辨率RGB,灰度立體攝像頭和3D激光掃描儀)進行記錄。 原始數據集不包含用於語義分割的真實標籤,但是研究人員出於研究目的手動註釋了數據集的各個部分。 例如,Alvarez等從道路檢測挑戰中生成了323個圖像的地面真相,包括道路,垂直和天空3類。

Other Datasets are available for image segmentation purposes too, such as Semantic Boundaries Dataset (SBD)[152], PASCAL Part [153], SYNTHIA [154], and Adobes Portrait Segmentation [155].

5.2 2.5D Datasets

隨着affordable範圍掃描儀的出現,RGB-D圖像在研究和工業應用中都變得越來越流行。 以下RGB-D數據集是最受歡迎的一些:

NYU-D V2 : 由Microsoft Kinect的RGB和深度相機記錄的各種室內場景的視頻序列組成。 它包括來自3個城市的450多個場景中的1,449張密集標記的RGB和深度圖像對。 每個對象都標有一個類別和一個實例編號(例如cup1,cup2,cup3等)。它還包含407,024個未標記的幀。 與其他現有數據集相比,該數據集相對較小。 圖47顯示了樣本圖像及其分割圖。
在這裏插入圖片描述
ScanNet : 是RGB-D視頻數據集,在1,500多次掃描中包含250萬個視圖,並以3D相機姿勢,表面重建和實例級別語義分割進行註釋。 爲了收集這些數據,設計了一個易於使用且可擴展的RGB-D捕獲系統,該系統包括自動錶面重建,並且語義標註是衆包的。 使用這些數據有助於在一些3D場景理解任務上實現最先進的性能,包括3D對象分類,語義體素標註和CAD模型檢索。

此外還有SUN-3D、SUN RGB-D、UW RGB-D Object Dataset等數據集

5.3 3D Datasets

3D圖像數據集在機器人,醫學圖像分析,3D場景分析和建築應用中很受歡迎。 通常通過網格或其他體積表示(例如點雲)提供三維圖像。 在這裏,我們提到了一些流行的3D數據集。

Stanford 2D-3D: 該數據集提供了2D,2.5D和3D域中的各種相互註冊的模態,帶有實例級語義和幾何註釋[161],並收集在6個室內區域中。 它包含70,000多個RGB圖像,以及相應的深度,表面法線,語義註釋,全局XYZ圖像以及相機信息。

ShapeNet Core: ShapeNetCore is a subset of the full ShapeNet dataset [162] with single clean 3D models and manually verified category and alignment annotations [163]. It covers 55 common object categories with about 51,300 unique 3D models.

Sydney Urban Objects Dataset: This dataset contains a variety of common urban road objects, collected in the central business district of Sydney, Australia. There are 631 individual scans of objects across classes of vehicles,pedestrians, signs and trees [164].

6、PERFORMANCE REVIEW

在本節中,我們首先總結了一些用於評估分割模型性能的流行指標,然後提供流行數據集上有前途的基於DL的分割模型的定量性能。

6.1 Metrics For Segmentation Models

理想情況下,應該從多個方面評估模型,例如定量精度,速度(推斷時間)和存儲要求(內存佔用)。 測量速度可能很棘手,因爲它取決於硬件和實驗條件,但是它是實時應用中的重要因素,如果模型用於內存容量有限的小型設備,則內存佔用空間也很重要。 但是,到目前爲止,大多數研究工作都集中在評估模型準確性的指標上。 下面我們總結了用於評估細分算法準確性的最受歡迎指標。 儘管使用定量指標來比較基準上的不同模型,但是模型輸出的視覺質量在決定哪種模型最好時也很重要(因爲人類是爲計算機視覺應用開發的許多模型的最終使用者)。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

6.2 Quantitative Performance of DL-Based Models

在本節中,我們列出了一些基於常用分割基準上幾種算法的性能。 值得一提的是,儘管大多數模型在標準數據集上報告其性能並使用標準指標,但其中一些未能做到這一點,從而難以進行全面比較。 此外,只有一小部分publications以可重現的方式提供其他信息,例如執行時間和內存佔用,這對於可能運行的分割模型(例如無人機,自動駕駛汽車,機器人等)的工業應用很重要。 在有限的計算能力和存儲能力的嵌入式消費類設備上,使快速,輕便的模型變得至關重要。
在這裏插入圖片描述
在這裏插入圖片描述

參考文獻

1、J. Long, E. Shelhamer, and T. Darrell, ?Fully convolutional networks for semantic segmentation,? in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 3431? 3440.
2、L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “Semantic image segmentation with deep convolutional nets and fully connected crfs,” arXiv preprint arXiv:1412.7062, 2014.
3、L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L.Yuille, ?Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs,? IEEE transactions on pattern analysis and machine intelligence, vol. 40, no. 4,pp. 834?848, 2017.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章