中科院自動化所提出全新架構RDSNet:用於相互對象檢測和實例分割算法

該論文簡要概述了目標檢測和實例分割算法的研究現狀,並簡要分析了各種方法的優缺點。在此基礎上,提出了一個完整的框架來完成目標檢測和實例分割的任務,這兩項任務相互幫助,同時實現性能改進。

本文作者來自中科院自動化所:

介紹

對象檢測和實例分割是計算機視覺中兩個基本且密切相關的任務,分別專注於在對象級別和像素級別的漸進式圖像理解。由於深度神經網絡的應用,近年來見證了這兩項任務的重大進步。但是,在大多數以前的工作中尚未充分探討它們的關係。因此,通過利用對象級和像素級信息之間的交互來提高這兩項任務的性能仍然是有意義且具有挑戰性的。

圖1:對象檢測中的本地化錯誤。 (a)(b)盒子沒有完全包圍物體。 (c)(d)盒子不要緊緊地圍住物體。 如果我們充分利用對象檢測和實例分割任務之間的相互關係,則可以輕鬆糾正大多數這些錯誤。結果通過Mask R-CNN獲得(He et al.2017)。

對象檢測的目標是使用矩形邊界框定位每個對象,並將其分類爲特定類別。在此任務中,最關鍵的挑戰之一是對象的本地化,即包含性和緊密邊界框的規範。正如在許多最新方法中通常可以看到的那樣,如圖1所示,定位誤差很容易降低其性能。定位誤差主要是由使用迴歸方法獲得邊界框的機制導致的,如逐點所示。迴歸並不直接瞭解整個對象。因此,將對象本地化轉換爲像素級任務更爲合理,這與邊界框的定義一致。

方法介紹

作者提出的算法框架如下:

圖2:建議的RDSNet的體系結構遵循兩個流結構,即對象流和像素流。 來自這兩個流的信息通過幾個設計良好的模塊相互交互:關聯模塊和裁剪模塊將實例的感知和平移方差引入像素流,從而有助於生成實例蒙版(請參閱第3.2節)。 反過來,實例蒙版將幫助對象流獲得更準確的邊界框(請參見第3.3節)。 c表示等級編號,k表示一個位置的錨編號,d表示表示尺寸,β表示尺寸。 *表示卷積運算。

論文作者認爲:目標檢測屬於對象級任務。這類任務更注重對象級的特點。它不需要高分辨率,但需要更高級的語義信息。實例分割任務屬於像素級任務。類任務需要逐像素輸出,這需要更高的分辨率和更詳細的信息。

因此,如圖所示設計了一個雙流網絡。上面的對象流集中於完成目標檢測任務。它可以是SSD、YOLO、RetinaNet(本文使用RetinaNet)等任何一種基於錨定的目標檢測算法;以下是像素流的焦點以高分辨率完成分割任務(本文采用類似於PanopticFPN的方法融合多尺度特徵,得到高分辨率的輸出);接下來的幾項操作是本文的重點,以及如何使這兩項任務相互幫助:

對象輔助實例分割:

常見的實例分割算法分爲兩類:

  • 一種是與Mask R-CNN相似的基於提議的方法,它是對目標檢測算法的直接擴展,但該方法將面臨上述許多問題:生成的實例掩碼分辨率相對較低,嚴重依賴於提議的邊界框;
  • 另一種是基於分割算法。首先預測每個點的嵌入,然後通過聚類得到每個實例的掩碼。形成一個集羣,然後獲取每個對象的掩碼)。這種方法自然克服了基於提議的方法的缺陷,但一般不能進行端到端的訓練(一般需要度量學習來訓練嵌入),且侷限於聚類算法,性能一般有限。

仔細分析發現,聚類問題主要是由於沒有聚類中心造成的。也就是說,如果我們有了每個簇的中心,就可以放棄聚類算法,進行端到端的訓練;“中心”應該是每個對象的嵌入,也就是說,它應該起源於對象層,而不是像素層!因此,形成了本文提出的基於相關濾波的示例掩模生成算法:

圖3:對象2和像素表示的圖示,它們都分別嵌入到對象和像素流的d維特徵空間中。 像素表示接近特徵空間中的對應實例表示,並且不同的對象具有不同的表示。 對錶示執行降維(從d到3)和L2歸一化

象流和像素流分別提取對象和像素的嵌入(獲取對象嵌入的方法也很簡單,可以直接在目標檢測算法的檢測頭的分類和迴歸分支中添加一個額外的分支進行預測),它屬於同一對象的像素,其對應的對象具有相似的嵌入。相似度度量採用內積相似度,即對每個檢測到的目標,以其嵌入爲核,對像素嵌入進行相關濾波。以獲取此對象的掩碼。

此外,本文還充分利用目標流得到的目標邊界框來抑制遠離目標中心的噪聲,在一定程度上克服了CNN變體對實例分割任務的影響。

掩碼有助於目標檢測:

邊界框定位是目標檢測的一項重要任務,現有的大多數方法都是利用迴歸得到邊界框的位置。但是,我們回顧了邊界框的定義,發現它本身是由對象掩碼的最小包圍矩形定義的!

既然我們可以得到對象的掩碼,爲什麼還要依賴迴歸算法呢?還有什麼(前提是對象掩碼的獲取不應依賴於邊界框)?但是,通過實驗發現,直接使用上述基於相關的濾波方法得到的實例掩碼生成的邊界框,其精度並不太高,甚至低於迴歸方法得到的邊界框!本文作者通過可視化發現,大多數對象的遮罩可以提供非常精確的邊界框。但是,一些對象的預測結果也有不滿意的遮罩,這使得邊界框具有較大的偏移量。

在此基礎上,提出了一種基於貝葉斯公式的邊界框定位算法。首先,將邊界框定位定義爲一個分類任務(是物體在寬/高維度上的一個座標,是物體的一個邊界),將問題轉化爲給定的物體掩模,預測座標屬於邊界框的後驗概率:

然後,利用貝葉斯公式,以迴歸得到的邊界框爲先驗概率P(X=i),以最大維卷積和激活函數爲目標實例掩碼得到P(M′X=i)。

整個流程如下圖所示:

該方法綜合考慮了迴歸得到的邊界框和實例掩碼的優點,得到了更精確的邊界框。具體結果見下圖。結果表明,該方法得到的邊界框可以與較高的IOU和地面真值bbox相匹配。

實驗結果

本文已在COCO數據集上進行了實驗驗證:

對COCO val2017上某些結果的視覺比較。 頂部,中間和底部行是通過Mask R-CNN,不帶擴展裁剪或MBRM的RDSNet和完整版本的RDSNet獲得的。 與Mask R-CNN相比,RDSNet提供更銳利的蒙版。圓圈區域突出顯示了MBRM在減輕定位錯誤方面的優勢。

在實例分割任務中,該方法可以在單階段算法中實現速度和精度的較好平衡。它在近3倍的速度下達到了接近TensorMask的精度,在類似的速度提升下達到了基於YOLACT的2.3mAP。

在目標檢測任務中,該方法以極低的計算代價在不同的主幹上實現了一致的性能改進。

值得注意的是:本文采用RetinaNet作爲檢測器,其對實例分割任務的擴展不會帶來計算量的顯著增加。如果採用其他更先進的目標檢測算法,其檢測精度和速度將得到進一步提高。

結論

論文地址或源碼下載地址:關注“圖像算法”wx公衆號 回覆"RDSNet",作者提出了用於對象檢測和實例分割的統一體系結構,並且實驗分析證明了這兩個任務之間的相互關係。這項工作在很大程度上克服了以前工作的缺點,例如實例蒙版的分辨率低,蒙版對框的依賴性很大以及邊界框的定位錯誤。 作者認爲對象檢測和實例分割任務不應分開研究,並希望將來的工作集中在不同圖像感知任務之間的相互關係。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章