Abstract

香港中文大學ICCV 2017的文章

實例分割是一個結合了物體檢測和語義分割的任務，物體遮擋和數量差異大的物體是實例分割中的主要困難。本文考慮到實例分割的困難性，提出將這個複雜的任務用一系列神經網絡來解決，其中每個神經網絡的左右都是將該程度下的語義信息進行聚集，從而使用簡單的結構逐漸構造物體實例。其中，第一個網絡在圖片的水平和豎直方向生成斷點，接着使用一種算法將點連接成先，第二個網絡將線組成組件，第三個網絡將組件融合起來成爲最後的實例分割結果。由於採用的是一些列的聚類網絡(Sequential Grouping Networks, SGN)，所以網絡命名爲SGN.

Framework

主要分爲四步：
1. 預測斷點

基於VGG16的deeplab-largeFOV，修改網絡的輸出，輸入爲一張圖片，輸出爲每個像素有4個標籤：背景、內部、起點、終點。分別計算水平方向和垂直方向。
2. 將斷點聚合成線分割

這裏直接使用掃描的方法，填充區域，形成所有的線
3. 將線連接成組件

這裏使用LineNet，輸入9通道，輸出是線所屬的組件分割好的圖片
4. 融合組件形成實例

由於實例可能包含不同的組件，許多對以上生成的組件進行融合，使用MergeNet，輸入是10通道，輸出最終的結果.