實例分割之Semi-convolutional Operators forInstance Segmentation(翻譯)

Semi-convolutional Operators forInstance Segmentation


image.png

原文:https://www.yuque.com/lart/papers/sconv

這篇文章看的我是真噁心,最後還是沒有堅持下去,還是直接翻譯一波吧。

摘要

目標檢測和實例分割由基於區域的方法(如Mask RCNN)主導。然而,人們越來越感興趣的是將這些問題減少(reduce)到像素標記任務,因爲後者可以更高效,可以無縫地集成在圖像到圖像網絡體系結構中,如許多其他任務中使用的那樣,並且可以更精確地用於沒有被邊界框很好地近似的對象。在本文中我們理論和經驗性的展示了該構建密集像素嵌入,這可以分離使用卷積操作算子(operators)不能很容易實現的目標示例。與此同時,我們展示了簡單的修改,我們稱之爲半卷積,這在這個任務中,更有機會成功。我們使用後者(半卷積操作)展示了和霍夫投票以及被卷積網絡在空間上操作(steer)的雙邊核(雙邊濾波)的變體之間的聯繫。我們證明了這些操作算子也可用於改善例如Mask RCNN這樣的方法,證明了相較於單獨的Mask RCNN而言,對於複雜的生物的形狀和PASCAL VOC類別,可以實現更好的分割

目前主流的物體檢測方法,如R-CNN系列,YOLO,SSD等,主要是一種建議加驗證(propose&verify,P&V)的思想:首先動態地或者在固定的提案中挑選出一些候選區域,然後通過一個卷積神經網絡(CNN)決定哪個區域最有可能包含感興趣的實例。這種思想在結合傳統的CNNs網絡可以獲得不錯的效果。

引言

用於檢測圖像中目標的最先進的方法,例如R-CNN系列,YOLO和SSD,可以被視爲相同範式的變體:提出一定數量的候選圖像區域(要麼動態地要麼來自固定池(a fixed pool)),然後使用卷積神經網絡(CNN)來確定這些區域中的哪一個緊密地包圍着感興趣對象的實例。這種策略(我們稱之爲提議和驗證(P&V)) 的一個重要優勢是,它與標準CNN一起工作得特別好。然而,P&V也有幾個顯着的缺點:

  1. 首先是矩形提案只能近似對象的實際形狀
  2. 尤其在分割目標時,需要兩步(two-step)的方法,如在Mask R-CNN中,首先使用矩形等簡單形狀檢測對象實例,然後才能將檢測細化爲像素精確的分割。

一種可以克服這種限制的P&V的替代方案是用相應目標出現的標識符直接標記各個像素。這種方法,我們稱之爲實例着色(instance coloring,IC),可以通過預測單個標籤映射來有效地表示任意數量的任意形狀的目標。因此,IC原則上比P&V有效得多。IC的另一個吸引力在於它可以表示爲圖像到圖像的迴歸問題,類似於其他圖像理解任務,例如去噪、深度和法線估計(denoising, depth and normal estimation)以及語義分割。因此,該策略可以允許更容易地構建統一的體系結構,同時處理實例分割和其他任務。

儘管理論上IC有很多好處,但是,P&V方法目前在總體精確度方面占主導地位。本文的目的是探討造成這種差距的一些原因,並提出一些替代的解決方案(workarounds)。部分問題可能與密集標籤的性質(nature)有關。給目標着色的最明顯的方法是給它們編號,並用它們相應的編號來“畫”它們。然而,後者是全局操作,因爲它需要知道圖像中的所有目標。CNN是局部的並且具有平移不變性(local and translation invariant),因此可能不適合直接枚舉。因此,幾位作者探索了更適合卷積網絡的替代着色方案。一種流行的方法將任意顏色(通常以實向量的形式表示)指定給每個目標的出現(object occurrence),唯一的要求是不同的顏色應該用於不同的目標。所得到的顏色親和性(affinities)然後可經由非卷積算法很容易地枚舉目標。

在本文中,我們認爲即使是後一種技術也不足以使IC服從(amenable to)CNN的計算。原因是,由於CNN是平移不變的,它們仍然會爲目標的相同副本分配相同的顏色,使得副本無法通過卷積着色來區分,由於實際中大多數CNN的感受野大小几乎與整個圖像一樣大,因此這個說法始終是有限度的(holds in the limit);然而,它表明網絡的卷積結構至少並不能自然地適合IC。

image.png

爲了克服這個問題,我們建議用於IC的架構不應該是平移不變的;雖然這可能看起來與卷積網絡有很大的不同,但我們也表明對標準CNN的一個小的修改可以克服這個問題。我們通過定義半卷積操作符(semi-convolutional operators),將從卷積網絡提取的信息與關於像素全局位置的信息混合。我們訓練後者,使得運算符的響應對於屬於同一目標實例的所有像素是相似的,使得這種嵌入自然地適合於IC。我們展示了,如果混合函數是相加的(additive),那麼得到的算子與Hough投票和相關的檢測方法有一些相似之處。在擴展嵌入表示以合併捕獲外觀線索的標準卷積響應之後,我們使用它來誘導像素親和性,並展示後者如何被解釋爲雙邊核的引導版本(a steered version of a bilateral kernel)。最後,我們展示瞭如何將這種親和性整合到諸如Mask RCNN這樣的結構中。

我們用幾個實驗來評估我們的方法。我們從研究我們方法在簡單合成數據上的極限屬性開始。然後,我們展示了我們的半卷積特徵提取器可以成功地與最先進的方法相結合,以解決包含重疊和關節生物體的生物圖像的解析問題。最後,我們將後者應用於一個標準實例分割基準Pascal VOC。在所有這些情況下都表明,使用半卷積特徵可以提高最先進的實例分割方法(如Mask RCNN)的性能。

相關工作

The past years have seen large improvements in object detection, thanks to powerful baselines such as Faster-RCNN [47], SSD [39] or other similar approaches [11, 45, 35], all from the propose & verify strategy. Following the success of object detection and semantic segmentation, the challenging task of instance-level segmentation has received increasing attention. Several very different families of approaches have been proposed.

Proposal-based instance segmentation

  1. While earlier methods relied on bottom-up segmentations [18, 9], the vast majority of recent instance-level approaches combine segment proposals together with powerful object classifiers.
    1. In general, they implement a multi-stage pipeline that first generates region proposals or class agnostic boxes, and then classifies them [30, 20, 7, 43, 10, 44, 33].
    2. For instance DeepMask [43] and follow-up approaches [44, 8] learn to propose segment candidates that are then classified.
    3. The MNC approach [10], based on Faster-RCNN [47], repeats this process twice [10] while [33] does it multiple times.
    4. [22] extends [10] to model the shape of objects.
    5. The fully convolutional instance segmentation method of [32] also combines segmentation proposal and object detection using a position sensitive score map.
  2. Some methods start with semantic segmentation first, and then cut the regions obtained for each category into multiple instances [26, 4, 38], possibly involving higher-order CRFs [3].
  3. Among the most successful methods to date, Mask-RCNN [23] extends FasterR-CNN [47] with a small fully convolutional network branch [41] producing segmentation masks for each region of interest predicted by the detection branch. Despite its outstanding results, Mask-RCNN does not come without shortcomings: it relies on a small and predefined set of region proposals and non-maximum suppression, making it less robust to strong occlusions, crowded scenes, or objects with fundamentally non-rectangular shapes.

Instance-sensitive embeddings

  1. Some works have explored the use of pixel-level embeddings in the context of clustering tasks, employing them as a soft, differentiable proxy for cluster assignments [54, 21, 15, 12, 42, 28]. This is reminiscent of unsupervised image segmentation approaches [49, 16]. It has been used for body joints [42], semantic segmentation [1, 21, 6] and optical flow [1], and, more relevant to our work, to instance segmentation [15, 12, 6, 28].
  2. The goal of this type of approaches is to bring points that belong to the same instance close to each other in an embedding space, so that the decision for two pixels to belong to the same instance can be directly measured by a simple distance function. Such an embedding requires a high degree of invariance to the interior appearance of objects.
  3. Among the most recent methods,
    1. [15] combines the embedding with a greedy mechanism to select seed pixels, that are used as starting points to construct instance segments.
    2. [6] connects embeddings, low rank matrices and densely connected random fields.
    3. [28] embeds the pixels and then groups them into instanceswith a variant of mean-shift that is implemented as a recurrent neural network.
    4. All these approaches are based on convolutions, that are local and translation invariant by construction, and consequently are inherently ill-suited to distinguish several identical instances of the same object.
    5. A recent work [25] employs position sensitive convolutional embeddings that regress the location of the centroid of each pixel’s instance.
    6. We mainly differ by allowing embeddings to regress an unconstrained representative point of each instance.
  4. Among other approaches using a clustering component,
    1. [50] leverages a coverage loss and [56, 51, 52] make use of depth information.
    2. In particular, [52] trains a network to predict each pixel direction towards its instance center along with monocular depth and semantic labeling. Then template matching and proposal fusion techniques are applied.

Other instance segmentation approaches

  1. Several methods [43, 44, 34, 24] move away from box proposals and use Faster-RCNN [47] to produce “centerness” scores on each pixel instead. They directly predict the mask of each object in a second stage. An issue with such approaches is that objects do not necessarily fit in the receptive fields.
  2. Recurrent approaches sequentially generate a list of individual segments.
    1. For instance, [2] uses an LSTM for detection with a permutation invariant loss while uses an LSTM to produce binary segmentation masks for each instance.
    2. [46] extends [48] by refining segmentations in each window using a box network.
    3. These approaches are slow and do not scale to large and crowded images.
  3. Some approaches use watershed algorithms.
    1. [4] predicts pixel-level energy values and then partition the image with a watershed algorithm.
    2. [26] combines a watershed algorithm with an instance aware boundary map. Such methods create disconnected regions, especially in the presence of occlusion.

方法

Semi-convolutional networks for instance coloring

基本符號:

  1. xX=RH×W×3\mathbf{x} \in \mathcal{X} = \mathbb{R}^{H \times W \times 3}表示一個三通道的圖像
  2. uΩ={1,,H}×{1,,W}u \in \Omega = \{1, \cdots, H\} \times \{1, \cdots, W\}表示圖像中的一個像素
  3. Sx={S1,,SKx}2Ω\mathcal{S}_x=\{ S_1, \cdots, S_{K_\mathbf{x}} \} \subset 2^\Omega表示圖像像素針對各個實例類別的分割區域
  4. S0=ΩkSkS_0=\Omega-\cup_kS_k表示背景分割區域

The regions as well as their number are a function of the image and the goal is to predict both.

這裏主要研究將實例分割視爲對單個像素分類的問題,其中這裏的“類”是指一個實例(instance)。也就是尋找一種函數映射關係:Φ:XLΩ\Phi:\mathcal{X} \rightarrow \mathcal{L}^{\Omega},關聯每個像素u到一個特定的標籤Φu(x)L\Phi_u(\mathbf{x}) \in \mathcal{L},使得作爲一個整體而言,標籤編碼了對應的分割Sx\mathcal{S}_x。直觀地說,這可以通過用不同的顏色繪製不同的區域(即像素標籤)來實現,從而使對象在後處理中很容易恢復。我們稱這個過程爲實例着色(IC)。

一個受歡迎的IC方法是使用實向量L=Rd\mathcal{L}=\mathbb{R}^d作爲顏色的表示,然後要求不同區域的顏色充分分離。正式地,這裏應該有一個邊界參數M>0M > 0,所以有如下公式:
image.png
如果是這種情況,那麼聚類顏色通常會重建區域。

不幸的是,對於一個卷積操作符Φ\Phi,很難滿足約束(1)或類似的。雖然這在小節 the convolutional coloring dilemma 中得到了正式證明,但就目前而言,直覺已經足夠:如果圖像包含相同對象的副本,則平移不變的卷積網絡將會爲每個副本分配相同的顏色。

如果卷積運算是不合適的,那麼我們必須拋棄卷積運算。雖然這聽起來很複雜,但我們建議對卷積進行非常簡單的修改就可以滿足需求了(may suffice)。尤其是,如果Φu(x)\Phi_u(\mathbf{x})是卷積操作在像素u位置的輸出,那麼我們可以構造一個非卷積響應,通過混合它和像素位置信息。數學上可以定義半卷積操作爲:
image.png
這裏的f:L×ΩLf:\mathcal{L} \times \Omega \rightarrow \mathcal{L}'是一個合適的混合函數。作爲這種算子的主要例子,我們考慮一種特別簡單的混合函數,即加法。於是等式2可以特殊化爲:
image.png
(也就是卷積的輸出和對應的位置信息的加和,這裏約束了輸出的卷積特徵是一個二元矢量)雖然這種選擇是有限制的,但它的好處是有一個非常簡單的解釋。假設結果嵌入可以完美地分離實例,在這種情況下,會有Ψu(x)=Ψv(x)k:(u,v)Sk\Psi_u(\mathbf{x})=\Psi_v(\mathbf{x}) \Leftrightarrow \exists k:(u,v)\in S_k(也就是說,對應同一實例內部的u和v的位置上計算的混合表示應該是一致的,也就是說即使添加了位置關係,也要保證混合後的結果是一樣的,這裏沒有提位於不同實例的情況),然後對於所有的位於區域SkS_k中的像素,可以寫成如下形式:
image.png
這裏的ckR2c_k \in \mathbb{R}^2是一個實例特定的點(instance-specific point)。換句話說,我們看到對實例分割學習這個semi-convolutional嵌入的影響是去預測一個位移場(displacement field)Φ(x)\Phi(\mathbf{x}),這可以將目標實例的所有像素映射到一個實例特定(instance-specific)的質心ckc_k。位移場的圖解可以在圖2中找到。

image.png

Relation to Hough voting and implicit shape models

等式3和等式4讓人聯想到計算機視覺中著名的檢測方法:Hough voting和implicit shape model(ISM)。這兩種方法將圖像patches映射到對於可能的目標出現的參數θ\theta的投票上。簡單的情況下θR2\theta \in \mathbb{R}^2可以使目標的質心,並且在投票的時候可能和等式4有着相似的形式。

這確立了基於投票的目標檢測方法和基於着色的實例分割方法之間清晰的關聯。與此同時也有一些顯著的差異。

  1. 首先,這裏的目標是對像素分組,而不是重構一個目標實例的參數(諸如其質心和尺寸)。等式3可以這樣解釋,但更一般的形式的等式2卻不能。
  2. 第二,在方法如Hough或ISM中,質心被定義爲目標的實際中心。而這裏的質心ckc_k並沒有明確的含義,但可以被自動推斷爲一個有用但任意的參考點。
  3. 第三,在傳統的投票方案中,投票集成提取自單個(individual)的patches的局部信息。這裏Φu(x)\Phi_u(x)的感受野大小可能是足以包含整個對象,或着更多。等式2和3的目標並不是去彙集局部的信息,而是要去解決一個代表性的問題(representational issue)。

Learning additive semi-convolutional features

學習等式2的semi-convolutional特徵可以從許多不同的方面來制定。這裏我們使用一個啓發自semantic instance segmentation with a discriminative loss function的簡單直接的形式,並且爲每個圖像x\mathbf{x}和實例SSS \in \mathcal{S}構建一個損失函數,通過考慮對於分割SS中的像素uu的嵌入表示和該分割中的所有嵌入的均值(質心)之間的距離來表示:
image.png
(可以看出了,這裏只是計算了L2範數,是開了根號的那個)注意,雖然這個量類似於對每個分割的嵌入值的方差,但它並不像,因爲沒有平方(更像是標準差);這也被發現是更加魯棒的。

注意,這個損失函數相較於餘量條件(margin condition,式子1)和在[12]中提出的損失更加簡單(這更類似於1)。特別地,提出的這個損失僅包括“吸引(attractive)”力,這鼓勵對於每個segment的嵌入一致於特定的均值,但不明確鼓勵不同的segments要被分配爲不同的嵌入值。雖然這也可以一併設置,但是我們發現,通過最小化等式5,也是可以令人滿意的學習到不錯的加式semi-convolutional嵌入。

Coloring instances using individuals’ traits

實際上,很少有圖像包含某個目標的精確複製品。相反,更典型的情況是,不同的事件(occurrences)具有一些不同的個體特徵(individual traits)。例如,不同的人通常有不同的穿着方式,包括不同的顏色。在實例分割中,可以使用這樣的線索來區分不同的實例。更多的是,這些線索可以通過傳統的卷積操作來提取。

爲了將這些線索結合到我們的加性半卷積表達,我們仍然考慮式子:Ψu(x)=u^+Φu(x)\Psi_u(x) = \hat{u} + \Phi_u(x)。然而,我們將Φu(x)Rd\Phi_u(\mathbf{x}) \in \mathbb{R}^d放鬆到兩維以上,d>2d>2。更進一步,我們定義u^\hat{u}作爲uu的像素座標,具體表示如下:
image.png
前兩項表示像素uu的x和y的座標。在這種方法中,後面的d2d-2維的嵌入表示用作傳統的卷積特徵,可以正常地提取實例特定的性狀(traits)。

Steered bilateral kernels

像素嵌入向量Ψu(x)Ψ_u(\mathbf{x})最終必須解碼爲一組圖像區域。另外,有幾種可能的策略,可從簡單的K均值聚類開始。這一小節,我們考慮將嵌入轉換到一個兩個像素之間的關聯矩陣(affinity matrix),因爲後者可以被用在許多算法中。

爲了定義像素uvu,v之間的affinity,首先考慮高斯核:
image.png
如果式子6中增強的嵌入表示使用在定義Ψu(x)=u^+Φu(x)\Psi_u(\mathbf{x}) = \hat{u} + \Phi_u(\mathbf{x})中,則可以講Φu(x)\Phi_u(\mathbf{x})分割爲一個幾何(geometric)部分Φug(x)R2\Phi_u^g(\mathbf{x}) \in \mathbb{R}^2和一個外觀(appearance)部分Φua(x)Rd2\Phi_u^a(\mathbf{x}) \in \mathbb{R}^{d-2},擴展這個核可以表示爲如下部分:
image.png
讓人感興趣的是將其與雙邊核定義進行比較:
image.png

雙邊核中,通常使用Φua(x)=xuR3\Phi^a_u(x)=x_u \in \mathbb{R}^3作爲RGB三元組來作爲外觀特徵。

雙邊核在許多應用中非常流行,包括圖像濾波和均值漂移聚類(mean shift clustering)。雙邊核的思想是考慮像素如果在空間和外觀上都很接近,就認爲它們是相似的。在這裏,我們展示了核(式子8),而核(式子7)可以被解釋爲這個核的一般化形式,在這個核中,空間位置被網絡引導steered(扭曲distorted),從而將屬於同一個目標實例的像素移到更近的地方。

在這些核的實際實現中,例如爲了平衡空間和外觀的成分(component),向量在比較之前應該重新放縮。在我們的例子中,由於嵌入是端到端訓練的,所以網絡可以學習自動處理這種平衡,但實際上式子4隱含地定義了核空間成分的放縮。因此,我們修改了式子7,主要在兩個方面:

  1. 引入可學的標量參數σσ
  2. 考慮拉普拉斯而不是高斯核

image.png
這個覈對於異常點更加魯棒(因爲它使用了歐氏距離而不是它的平方),並且仍然是正定的。

下一節將會展示這個核怎樣可以用來處理實例着色問題。

Semi-convolutional Mask-RCNN

我們提出的半卷積框架非常通用,可以與許多現有方法相結合。在這裏,我們將描述如何將其與當前實例分割領域的最新技術——Mask RCNN(MRCNN)框架相結合。

MRCNN是基於RCNN的propose&verify策略,並首先生成一組矩形區域R\mathcal{R},其中每個矩形RRR∈ \mathcal{R}緊緊包圍一個實例候選區域。然後,一個全卷積網絡(FCN)在每個區域內產生前景/背景分割。在實踐中,它使用前景得分logit值s(ui)Rs(u_i) \in \mathbb{R}RR中的每個像素uiu_i都標記了標籤。然而,對於交接的目標或遮擋的場景,這不是最佳策略,因爲標準FCN很難執行單個的前景/背景預測。因此,我們利用我們的像素級平移敏感的嵌入來提高預測s(ui)s(u_i)的質量。

Extending MRCNN

我們的方法基於兩個直覺:

  1. 首先,一些點比其他點更容易被識別爲前景
  2. 第二,一旦確定了一個種子點,它與其他像素的親和力(affinity)可以用來分割前景區域

在實踐中,我們首先使用MRCNN前景置信度得分圖s=[s(u1),,s(uR)]\mathbf{s}=[s(u_1),\cdots, s(u_{|R|})]在每個區域RR中確定一個種子像素usu_s。我們選擇最自信的種子點記作us=argmax1iRs(ui)u_s=argmax_{1 \le i \le |R|}s(u_i),在爲種子提取嵌入Ψus\Psi_{u_s}以及針對區域中的像素uiu_iΨui\Psi_{u_i}之後,評估steered bilateral kernelKσ(us,u)K_σ(u_s,u),然後定義更新分數s^(ui)=s(ui)+logKσ(us,ui)\hat{s}(u_i)=s(u_i)+logK_{\sigma}(u_s,u_i)。爲了改進數值穩定性,分數和核函數的組合是在對數空間中進行的。最後每個前景的概率按照[Mask r-cnn]中的方法使用sigmoid(s^(ui))sigmoid(\hat{s}(u_i))獲取。

整個體系結構——區域選擇機制、前景預測和像素級嵌入——都是端到端訓練。爲了可微性,需要做以下修改:我們需要用得分上的柔性最大值ps=softmax(s)\mathbf{p}_s=softmax(\mathbf{s})來替換取最大操作,並且我們獲得種子嵌入ΨusΨ_{u_s}作爲在概率密度psp_s下,嵌入Ψu\Psi_u的期望。網絡優化器最小化,MRCNN的損失,以及圖像級嵌入損失L(Ψx,S)\mathcal{L}(Ψ|\mathbf{x},\mathcal{S}),並且進一步附加一個二次二值交叉熵損失,這類似於MRCNN的掩膜預測器,最小化輸出Kσ(us,ui)K_{\sigma}(u_s,u_i)和真值實例掩膜之間的二值交叉熵損失。

semi-convolutional特徵ΨuΨ_u的預測器,被實現爲一個淺層子網絡的輸出,在所有的FPN層之間共享。這個子網絡由256-channel 1×1卷積濾波器(跟着ReLU和最後的一個3×3卷積濾波器),最終會產生一個D=8D=8維的嵌入ΨuΨ_u。由於RPN分量對底層FPN表示中的擾動過於敏感,我們將淺層子網生成和被共享FPN張量接收的梯度縮小了10倍。

The convolutional coloring dilemma

在本節中,我們將證明卷積運算在解決實例分割問題方面的一些性質。爲了做到這一點,我們需要從形式化問題開始。

考慮一個圖像信號x:ΩR\mathbf{x}:\Omega \rightarrow\mathbb{R},這裏的域Ω\OmegaZm\mathbb{Z}^m或者Rm\mathbb{R}^m。再分各種,給定一族這樣的信號xX\mathbf{x} \in \mathcal{X},其中的每一個都是關聯到一個特定關於域Ω\Omega的分區Sx={S1,,SKx}\mathcal{S}_\mathbf{x}=\{ S_1, \cdots, S_{K_\mathbf{x}} \}。問題的最終目標是去構造一個分割算法A:xSx\mathcal{A} : \mathbf{x} \mapsto \mathcal{S}_{\mathbf{x}}來計算這個函數。我們看一個特殊的情況,通過假定每個點uΩu \in \Omega賦一個標籤Φu(x)L\Phi_u(\mathbf{x}) \in \mathcal{L}來預處理信號。進一假定這個標記操作Φ\Phi是一個局部的並且平移不變的操作,因此可以使用卷積神經網絡來實現。

這裏提到的“局部的”和“平移不變”的表述:
如果Φu(x(τ))=Φuτ(x)\Phi_{u}(\mathbf{x}(\cdot-\tau))=\Phi_{u-\tau}(\mathbf{x})對於所有的變換τΩ\tau \in \Omega都成立,則說Φ\Phi是平移不變的。
如果存在一個大於0的常量MM,使得xu=xux_u=x_{u'}對於所有的uu<M|u-u'|<M都成立,可以推出Φu(x)=Φu(x)\Phi_{u}(\mathbf{x})=\Phi_{u}^{\prime}(\mathbf{x}),則說Φ\Phi是局部的。

有兩類算法可以用來以這種方式分割信號。

Propose & verify

第一類算法提交所有可能的區域SrS_r⊂Ω(使用索引變量rr),標記函數Φr(x){0,1}Φ_r(\mathbf{x})∈\{0,1\}驗證哪些屬於分割Sx\mathcal{S}_\mathbf{x}(即Φr(x)=1SrSxΦ_r(\mathbf{x})=1⇔S_r∈S_\mathbf{x})。因爲在實踐中不可能測試Ω的所有可能的子集,這樣的算法必須專注於一組較小的提案區域。一個典型的選擇是考慮所的有平移正方形(或矩形)Su=[H,H]m+uS_u=[-H, H]^m+u。因爲索引變量uΩu \in \Omega現在是一個轉換,操作符Φu(x)\Phi_u(\mathbf{x})有着前面討論的形式,儘管並不必須是局部的或者平移不變的。

Instance coloring

第二類算法直接使用對應區域的索引來對像素着色,例如Φu(x)=kuSkΦ_u(\mathbf{x}) = k⇔u∈S_k。不同於P&VP\&V方法,這可以有效的表示任意的形狀。然而這裏的映射ΦΦ需要隱式地決定爲每一個區域分配哪一個數字,這是一個全局操作。數位作者試圖使其更適合於卷積網絡。一種流行的方法[15,12]是任意給像素着色(例如使用向量嵌入),以便在相同區域內爲像素分配相似的顏色,在不同區域之間使用不同的顏色,公式1中已經詳細說明。

Convolution coloring dilemma

這裏我們展示前面討論的一些變體,IC方法不能與卷積操作符一起用,即使在和P&VP\&V一起工作的情況下。
image.png
我們通過考慮一個簡單的1D的例子。讓x\mathbf{x}表示週期爲2的信號(xu+2=xux_{u+2}=x_u),對於u[1,1]u \in [-1,1]時,信號通過xu=min(1u,1+u)x_{u}=\min (1-u, 1+u)(可見上圖給出了部分長度的信號表示)給出。假設關聯到x\mathbf{x}的分割是S={[1,1]+2k,kZ}\mathcal{S}=\{[-1,1]+2k,k\in \mathbb{Z}\}。付過我們假設對於一個基於着色的算法的必要條件是,至少一些區域會被賦予不同的顏色,我們看到這不能通過卷積操作來實現。事實上,因爲x\mathbf{x}的週期性,任何平移不變的函數都將最終給像素2k,kZ2k, k \in \mathbb{Z}賦予相同的顏色。

另一方面,這個問題可以通過使用提案集合{[1,1]+u,uΩ}\{[-1,1]+u, u \in \Omega\}來使用P&VP\&V方法以及局部的且平移不變的驗證函數Φu(x)=[xu=1]\Phi_{u}(\mathbf{x})=\left[x_{u}=1\right](這可以檢測每個區域的中心位置)來解決。

後者是卷積着色難題(dilemma)的一個極端例子:即,局部和平移不變運算符會自然地將相同的顏色分配給對象的相同副本,即使它們出現在不同的位置(可以比較有趣的同時期的工作[37],他們探索了相關卷積的難題)。

Solving the dilemma

解決着色難題可以通過使用不具有平移不變性的操作來實現。在上面的反例(counterexample)中,這可以通過使用semi-convolutional函數Φu(x)=u+(1xu)x˙u\Phi_{u}(x)=u+\left(1-x_{u}\right) \dot{x}_{u}來實現。這可以很容易的展示出,Φu(x)=2k\Phi_{u}(x)=2 k通過移動每個點uu到最近的區域的中心,來爲每個像素uSk=[1,1]+2ku \in S_k=[-1, 1]+2k(這裏可以看前圖中對應的位置,當k=0k=0的時候,uu屬於[1,1][-1,1]的範圍內,此時對應的分割爲S0S_0;當k=1k=1的時候,uu屬於範圍[211,21+1]=[1,3][2*1-1, 2*1+1]=[1, 3]內,此時對應的分割爲S1S_1)着色,使用對應區域的索引的兩倍。這是可行的,因爲這樣的位移可以通過局部觀察基於信號的形狀來進行計算。

實驗

We first conduct experiments on synthetic data in order to clearly demonstrate
inherent limitations of convolutional operators for the task of instance segmentation. In the ensuing parts we demonstrate benefits of the semi-convolutional operators on a challenging scenario with a high number of overlapping articulated instances and finally we compare to the competition on a standard instance segmentation benchmark.

Synthetic experiments

We suggested that convolution operators are unsuitable for instance segmentation via coloring, but that semi-convolutional ones can do. These experiments illustrate this point by learning a deep neural network to segment a synthetic image xS where object instances correspond to identical dots arranged in a regular grid (fig. 3 (a)).

  1. We use a network consisting of a pretrained ResNet50 model truncated after the Res2c layer, followed by a set of 1×1 filters that, for each pixel u, produce 8-dimensional pixel embeddings Φu(xS)Φ_u(x_S) or Ψu(xS)\Psi_u(x_S).
  2. We optimize the network by minimizing the loss from eq. (5) with stochastic gradient descent.
  3. Then, the embeddings corresponding to the foreground regions are extracted and clustered with the k-means algorithm into K clusters, where K is the true number of dots present in the synthetic image.

image.png

Fig. 3 visualizes the results.

  • Clustering the features consisting of the position invariant convolutional embedding Φu(xS)Φ_u(x_S) results in nearly random clusters (fig. 3 ©).
  • On the contrary, the semi-convolutional embedding Ψu(xS)=Φu(xS)+uΨ_u(x_S) = Φ_u(x_S)+u allows to separate the different instances almost perfectly when compared to the ground truth segmentation masks (fig. 3 (d)).

Parsing biological images

The second set of experiments considers the parsing of biological images. Organisms to be segmented present non-rigid pose variations, and frequently form clusters of overlapping instances, making the parsing of such images challenging. Yet, this scenario is of crucial importance for many biological studies.

Dataset and evaluation

image.png

We evaluate our approach on the C. Elegans dataset (illustrated fig. 4), a subset of the Broad Biomedical Benchmark collection [40].

  • The dataset consists of 100 bright-field microscopy images.
  • Following standard practice [53,55], we operate on the binary segmentation of the microscopy images.

However, since there is no publicly defined evaluation protocol for this dataset, a fair numerical comparison with previously published experiments is infeasible. We therefore compare our method against a very strong baseline (MRCNN) and adopt the methodology introduced by [55] in which the dataset is divided into 50 training and 50 test images. We evaluate the segmentation using average precision (AP) computed using the standard COCO evaluation criteria [36]. We compare our method against the MRCNN FPN-101 model from [23] which attains results on par with state of the art on the challenging COCO instance segmentation task.

Results

image.png

The results are given in table 1. We observe that the semi-convolutional embedding ΨuΨ_u brings improvements in all considered instance segmentation metrics. The improvement is more significant at higher IoU thresholds which underlines the importance of utilizing position sensitive embedding in order to precisely delineate an instance within an MRCNN crop.

Instance segmentation

image.png

The final experiment compares our method to competition on the instance segmentation task on a standard large scale dataset, PASCAL VOC 2012 [14].

As in the previous section, we base our method on the MRCNN FPN-101 model. Because we observed that the RPN component is extremely sensitive to changes in the base architecture, we employed a multistage training strategy.

  1. First, MRCNN FPN-101 model is trained until convergence
  2. then our embeddings are attached and fine-tuned with the rest of the network.
  3. We follow [23] and learn using 24 SGD epochs, lowering the initial learning rate of 0.0025 tenfold after the first 12 epochs.
  4. Following other approaches, we train on the training set of VOC 2012 and test on the validation set.

Results

image.png

The results are given in table 2. Our method attains state of the art on PASCAL VOC 2012 which validates our approach. We further compare in detail against MRCNN in table 3 using the standard COCO instance segmentation metrics from [36]. Our method outperforms MRCNN on the considered metrics, confirming the contribution of the proposed semi-convolutional embedding.

結論

這篇文章彙總,我們考慮了針對實例分割的密集像素嵌入,從依賴於平移不變卷積神經網絡的標準方法出發,我們提出了半卷積算子,只需對卷積算子進行簡單的修改即可獲得半卷積算子。除了它們的理論優勢外,我們還通過經驗證明,它們更適合於區分同一目標的幾個相同實例,並且與標準的Mask RCNN方法互補。

參考鏈接

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章