Abstract
香港中文大學ICCV 2017的文章
實例分割是一個結合了物體檢測和語義分割的任務,物體遮擋和數量差異大的物體是實例分割中的主要困難。本文考慮到實例分割的困難性,提出將這個複雜的任務用一系列神經網絡來解決,其中每個神經網絡的左右都是將該程度下的語義信息進行聚集,從而使用簡單的結構逐漸構造物體實例。其中,第一個網絡在圖片的水平和豎直方向生成斷點,接着使用一種算法將點連接成先,第二個網絡將線組成組件,第三個網絡將組件融合起來成爲最後的實例分割結果。由於採用的是一些列的聚類網絡(Sequential Grouping Networks, SGN),所以網絡命名爲SGN.
Framework
主要分爲四步:
1. 預測斷點
基於VGG16的deeplab-largeFOV,修改網絡的輸出,輸入爲一張圖片,輸出爲每個像素有4個標籤:背景、內部、起點、終點。分別計算水平方向和垂直方向。
2. 將斷點聚合成線分割
這裏直接使用掃描的方法,填充區域,形成所有的線
3. 將線連接成組件
這裏使用LineNet, 輸入9通道,輸出是線所屬的組件分割好的圖片
4. 融合組件形成實例
由於實例可能包含不同的組件,許多對以上生成的組件進行融合,使用MergeNet,輸入是10通道,輸出最終的結果.
Result
在Cityscapes和Pascal VOC2012上進行實驗,結果如下
在兩個數據集上的實例分割任務中均達到了SOTA.
Other
從另一個思路處理分割問題,不是單純地使用簡單的一個深度網絡,而是從圖像的認知過程進行分階段處理。
未開源