語義分割、實例分割、全景分割的定義

Facebook提出全景分割,實現實例分割和語義分割的統一 

2018-01-05 18:04

原文來源:arxiv

作者:Alexander Kirillov、Kaiming He1、Ross Girshick、Carsten Rother、Piotr Dollar

「雷克世界」編譯:嗯~阿童木呀、KABUDA

現如今,我們提出並研究了一種新的“全景分割”(Panoramic segmentation,PS)任務。可以這樣說,全景分割將傳統意義上互不相同的實例分割(檢測和分割每個目標實例)和語義分割(爲每個像素分配一個類標籤)任務統一起來了。這種統一是自然的,並在一種孤立的研究狀態中呈現出一種既不存在於實例中,也不存在於語義分割中的全新的挑戰。爲了衡量任務執行的性能表現,我們引入了一種全景質量(panoptic quality ,PQ)度量標準,並表明它非常簡單且具有可解釋性。在使用PQ的情況下,我們在三個現有數據集上研究了人類性能表現,其中,這些數據集要有必要的PS註釋,這將有助於我們對任務和度量標準進行更好的理解。我們還提出了一種基本的算法方法,將實例和語義分割的輸出結合到全景輸出中,並將其與人類的性能表現進行比較。可以這樣說,在分割和視覺識別方面,PS可以作爲其未來挑戰的基礎。我們的目標是通過邀請社區探索所提出的全景分割任務從而推動在全新方向的研究。

對於給定的(a)圖像,我們展示了以下任務的參照標準:(b)語義分割(每個像素具有類標籤),(c)實例分割(每個目標具有掩碼和類標籤),以及(d)提出的全景分割(PS)任務(每個像素具有類+實例標籤)。全景分割泛化了語義和實例分割,並要求識別和描繪圖像中的每個可見的目標和區域。我們希望這個統一的分割任務能夠提出新的挑戰,並創造新的方法。

在計算機視覺發展的早期,things(事物)——諸如人、動物、工具等可以計數的物體,得到了佔據主導地位的關注。在質疑這種趨勢是否存在智慧性時,Adelson提高了研究系統的重要性,而這種系統能夠識別出stuff(材料)——諸如草、天空、道路等類似質地或原料的非晶區域。事物和材料之間的這種二分法一直沿用至今,既反映在視覺識別任務的劃分上,也體現在針對事物和材料任務開發的專用算法中。

學習材料的任務通常被看作是一項稱之爲語義分割的任務,見圖1b。由於材料是無定形的、不可數的,這個任務被定義爲簡單地爲圖像中的每個像素分配一個類別標籤(注意,語義分割將事物類別視爲材料)。相比之下,研究事物的任務通常被表述爲目標檢測或實例分割任務,其目的是檢測出每個目標,並用邊界框或分割掩碼對其進行描述,參見圖1c。雖然這兩個視覺識別任務看似相關,但是在數據集、細節和度量標準上有很大的不同。

分割瑕疵。圖像被縮放和裁剪。頂部行(Vistas圖像):兩個註釋器都將目標識別爲一輛汽車,然而,人將一輛汽車分成了兩輛車。底行(Cityscapes圖像):分割是非常模糊的。

語義和實例分割之間的分裂導致了這些任務方法中出現了平行分裂。材料分類器通常建立在具有擴張的完全卷積網絡上,而目標檢測器通常使用的是目標提案(object proposals),且是基於區域的。在過去的十年中,這些任務的總體算法進展是不可思議的,然而,如果將這些任務孤立起來看,就可能會忽略一些重要的內容。

在這項研究中,我們會問:things和stuff之間是否可以和解?是否存在這樣一個簡單的問題表述,能夠優雅地將這兩個任務涵蓋在內?一個統一的視覺識別系統會是什麼樣子的呢?

分類瑕疵。圖像被縮放和裁剪。頂部行(ADE20k圖片):簡單的錯誤分類。底行(Cityscapes圖像):現場是非常困難進行分類的的,有軌電車是正確的分類。其中許多錯誤難以解決。

考慮到這些問題,我們提出一個既包含things又包含stuff的新任務。我們將所得到的任務稱爲全景分割(PS)。全景的定義是“一個視圖中可見的一切”,在我們的上下文中,全景視圖指的是分割的統一的全局視圖。PS的任務表達看似簡單:圖像的每個像素都必須分配一個語義標籤和一個實例ID。具有相同標籤和ID的像素屬於同一個目標,而對於材料標籤而言,實例ID被忽略。參照標準和機器預測都必須有這種形式。見圖1d的可視化。

全景分割是語義分割和實例分割的泛化,但引入了新的算法挑戰。與語義分割不同,全景分割需要區分單個目標實例; 這對完全卷積網絡提出了挑戰。與實例分割不同的是,在全景分割中目標分割中必須是非重疊的,這對獨立於操作每個目標的基於區域的方法提出了挑戰。 而且,這項任務需要同時識別出things和stuff。爲全景分割設計一個乾淨的、端到端的系統是一個開放的問題,需要探索創新的算法思想。

Cityscapes(左二)和ADE20k(右三)的全景分割結果。預測是基於最先進的實例和語義分割算法的合併輸出進行的。匹配部分的顏色(IoU> 0.5)(交叉陰影圖案表示不匹配的區域,黑色表示未標記的區域)。最呈現的是最好的顏色和變焦。

我們新的全景分割任務需要一個新的度量標準。我們努力使我們的度量標準完整、可解釋、簡單。或許,令人驚訝的是,對於我們這看起來複雜的任務,存在一個滿足這些性質的自然度量標準。我們定義了全景質量(PQ)度量標準,並且表明了它可以被分解爲兩個可解釋的術語:分割質量(SQ)和檢測質量(DQ),而且還可以進一步細分精度。

由於全景分割的參照標準(ground truth)和算法輸出都必須採用相同的形式,因此我們可以在全景分割上對人類性能(human performance)進行詳細的研究。這使我們能夠更詳細的瞭解全景質量度量標準,包括檢測與分割的詳細分析,以及材料與事物(stuff 和things)的性能對比。並且,測量人體PQ有助於我們理解機器的性能。這點非常重要,因爲它可以讓我們監測全景分割中各種數據集上的性能飽和度。

最後,我們對全景分割的機器性能進行初步研究。爲此,我們確定了一個簡單但可能不是最優的啓發式算法,該算法通過一系列後處理步驟(post-processing steps)(實際上是一種非最大抑制的複雜形式)將兩個獨立系統的輸出結合起來進行語義和實例分割。我們的啓發式算法爲全景分割建立了一個基線,併爲我們提供了有關它所呈現出的主要算法挑戰(main algorithmic challenges)的見解。

我們在三個通用分割數據集上研究了人和機器的性能,這三個數據集都包含材料與事物(stuff 和 things)註釋。這些數據集分別是Cityscapes、ADE20k和Mapillary Vistas。對於每個數據集,我們都直接從挑戰組織者那裏獲得了最先進方法的結果。在未來,我們將把分析工作擴展到COCO(在COCO中材料(stuff)被註釋)上。我們將這些數據集合在一起,爲研究人類和機器在全景分割上的表現奠定了堅實的基礎。

我們的目標是通過邀請社區以探索新的全景分割任務從而推動新方向的研究。我們認爲,擬定的任務會導致預期之內和預期之外的創新。最後,我們來探討一下這些可能性以及我們未來的計劃。

出於簡單化的目的,本文中提出的PS“算法”是基於最優執行實例和語義分割系統中輸出的啓發式組合。這個方法是基本性的第一步,但我們希望引入更多有趣的算法。具體而言,我們希望看到全景分割至少在兩個方面的創新:(1)深度集成的端到端模型可同時解決全景分割的雙重性質。許多實例分割方法都被設計爲用於產生不重疊的實例預測,並可以作爲此係統的基礎。(2)由於全景分割不能有重疊的部分,因此某種形式的高層次“推理”可能是有益的,例如,將基於可學習的NMS擴展到全景分割中。我們希望全景分割任務能夠推動這些領域的研究,進而帶來令人眼前一亮的新突破。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章