【論文筆記】:Segmentation Is All You Need

&Title:

&Summary

作者提出了 第一個無錨(anchor-free)和無NMS(NMS-free) 的目標檢測模型,稱爲弱監督多模式註釋分割(WSMA-Seg),該模型 利用分割模型實現了無需NMS的準確而魯棒的目標檢測 。在WSMA-Seg中,提出了多模式註釋(目標輪廓註釋、目標邊界註釋、目標相交區域邊界註釋),以使用弱監督邊界框實現實例感知的分割。我們還開發了一種基於運行數據的跟蹤算法來跟蹤對象的輪廓。此外,我們提出了多尺度池化分割(MSP-Seg) 作爲WSMA-Seg的基礎分割模型,以實現更準確的分割並提高WSMA-Seg的檢測精度。在多個數據集上的實驗結果表明,提出的WSMA-Seg方法優於最新的檢測器。

總結:用bounding box生成上面所說的三種註釋(四邊形 >> 內接橢圓),用這三種註釋訓練出一個分割模型,然後測試的時候,用分割模型輸出實例感知分割圖,在通過輪廓跟蹤操作以生成目標的輪廓,然後通過創建目標的邊界框作爲其輪廓的外接四邊形。

&Research Objective

使用分割的思想來解決在目標檢測中極端環境下的問題。

  • anchor-free + NMS-free + seg

&Problem Statement

目前目標檢測算法中有兩個模塊比較重要: region proposal networks (RPNs) 和 non-maximum suppression (NMS) ,雖然這兩個模塊解決目標檢測中的一些問題,但是它們也引入了一些難以克服的問題。
如下圖,RPN方法在以下三種極端環境下表現很差
在這裏插入圖片描述

Although they can generally achieve a good detection performance under normal circumstances, their recall in a scene with extreme cases is unacceptably low. This is mainly because bounding box annotations contain much environment noise information, and non-maximum suppression (NMS) is required to select target boxes.

挑戰(問題)

  • RPN高度依賴Bounding box,但是對於一些極端的例子,人工標註的ground truth 含有很多噪音
  • NMS很難(有時甚至是不可能)找到合適的閾值以適應極端情況下的非常複雜的情況。

摘自文章

  • 邊界框(Bounding Box)不應該存在
    雖然 anchor 的存在減少了很多計算量,但是也帶來了超參數增加、人爲調參過擬合評測數據集、前後景目標類別不平衡等一系列令人頭疼的問題。
    讓我們回到邊界框的本質。所有的邊界框其實都是一種無限制保證前景物體像素召回率的標註方式,它會儘可能貼着外輪廓,因此會導致背景像素大量進入框內。然而,真實世界的物體可以隨意轉動,不同的機位拍一個 3D 物體出現的結果可以大不相同,因此用框作爲一個表徵工具來把東西框起來,本身就不穩健。而且,框的標註本身也帶有一定的隨機性,畢竟要遵守標註規則把框標得非常好可能花的成本也會很高。
  • 非極大值抑制(NMS)不應該存在
    NMS 是一項很神奇的工作,目標檢測領域用 NMS 作爲選框策略已經有大概幾十年了,因爲沒有一項工作能超越它。然而如上所述,既然邊界框本身並不穩健,選出的框再優秀也無濟於事。更何況選出的框也不會格外優秀,因爲真實世界裏不可能有一個具體的閾值來控制所有的場景,例如遮擋問題。現實世界中的遮擋問題十分複雜,擋了一部分和擋了一大半完全不是同一種情況。既然如此,用一個單一的閾值怎麼可能解決問題?事實上,在之前的工作中,動態調整 NMS 的 SoftNMS、動態調整 IoU 的 Cascade RCNN 方案都取得了很不錯的結果,但是前者依然迴避了「複雜遮擋」的複雜性,後者參數量激增,速度慢到難以想象。

&Method(s)

提出了一種弱監督的多模式註釋分割(WSMA-Seg)方法,該方法使用分割模型來實現無NMS的準確而魯棒的對象檢測。
它包括兩個階段
訓練階段:

  • WSMA-Seg首先將弱監督的邊界框註釋轉換爲具有三個通道的像素級分段式蒙版,分別代表內部蒙版信息的內部,邊界和邊界。產生的註釋稱爲多模式註釋;
  • 然後,將多峯註釋用作標籤以訓練基礎的分割模型,以學習訓練圖像的相應多峯熱圖。

在這裏插入圖片描述

測試階段:

  • 首先將給定的測試圖像發送到訓練好的分割模型中以獲得多模態熱圖。
  • 基於像素級邏輯運算將得到的三個熱圖轉換爲實例感知的分割圖;
  • 最後,使用分割圖進行輪廓跟蹤操作以生成對象的輪廓,然後將對象的邊界框創建爲其輪廓的外接四邊形。

在這裏插入圖片描述
WSMA-Seg的優點:

  • 作爲無NMS的解決方案,WSMA-Seg避免了所有與錨框和NMS相關的超參數; 因此,也避免了上述閾值選擇問題。
  • 通過利用類似分段的多模式註釋的拓撲結構可以減輕複雜的遮擋問題;
  • 多模式註釋是像素級註釋; 因此,他們可以更準確地描述物體並克服上述環境噪聲問題。

WSMA-Seg的主要部分:(待完成)

Generating Multimodal Annotations

Multi-Scale Pooling Segmentation
在這裏插入圖片描述
在這裏插入圖片描述
Object Detection Using Segmentation Results and Contour Tracing
在這裏插入圖片描述
在這裏插入圖片描述

&Evaluation

分別在三個數據集上做了實驗:Rebar Head dataset、WIDER Face、MS COCO,以下是各個實驗的對比結果

  • Rebar Head dataset
    在這裏插入圖片描述
  • WIDER Face
    在這裏插入圖片描述
  • MS COCO
    在這裏插入圖片描述

&Conclusion

提出了一種新的圖像中目標檢測方法,稱爲 弱監督多模式註釋分割(WSMA-Seg),該方法 無錨且無NMS。我們觀察到 NMS是現有的深度學習方法中圖像對象檢測的瓶頸之一。在NMS上調整超參數的需求嚴重阻礙了高性能檢測框架的可伸縮性。因此,爲了實現WSMA-Seg,我們提出使用 多模式註釋來實現基於弱監督邊界框的實例感知分割,並開發了一種 基於運行數據的跟蹤算法來跟蹤對象的輪廓。此外,提出了一種 多尺度池化分割(MSP-Seg)模型作爲WSMA-Seg的基礎分段模型,以實現更準確的分段並提高WSMA-Seg的檢測精度。

個人啓發:

  • 分割的思想做檢測
    最近已經看到好多篇用分割的思想或者方法來做檢測,而且做出來的效果很好。有一個原因我認爲是,分割比檢測更細,拿一個更細的方法來解決粗的問題,肯定效果更好咯,舉本論文的例子,分割的標註比檢測的標註(bounding box)是不是背景信息更少了?這樣不就降低模型學習的難度,同時增加預測邊框的置信度等。所以往後可以多看些分割的論文,找找靈感了。
  • 將框轉換爲其他的三種標註註釋,速度會不會就變得慢了呢???文章沒有速度的消融實驗。
  • 因爲不是做分割的,也不知道提出的module如何,有沒有可圈可點的地方?日後研究相關分割方向的算法再來補充。

&Notes

Contributions

  • 我們提出了一種弱監督的多模式註釋分割(WSMA-Seg)方法,以在不使用NMS的情況下實現準確而強大的對象檢測,這是第一種無錨和無NMS的對象檢測方法。
  • 我們提出了多模式註釋,以使用弱監督邊界框實現實例感知的分割; 我們還開發了一種基於運行數據的跟蹤算法來跟蹤對象的輪廓。
  • 我們提出了一種多尺度合併分段(MSP-Seg)模型,以實現更準確的分段並提高WSMA-Seg的檢測準確性。
  • 我們對Rebar Head,WIDER Face和MS COCO數據集進行了廣泛的實驗研究; 結果表明,所提出的WSMA-Seg方法在所有測試數據集上均優於最新的檢測器。

參考

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章