大話目標檢測經典模型:Mark R-CNN 原 薦

在之前的文章中介紹了目標檢測經典模型(R-CNN、Fast R-CNN、Faster R-CNN),目標檢測一般是爲了實現以下效果:
 
在R-CNN、Fast R-CNN、Faster R-CNN中,實現了對目標的識別和定位,如下圖所示:
 
爲了更加精確地識別目標,實現在像素級場景中識別不同目標,利用“圖像分割”技術定位每個目標的精確像素,如下圖所示(精確分割出人、汽車、紅綠燈等):
 
Mask R-CNN便是這種“圖像分割”的重要模型。

Mask R-CNN的思路很簡潔,既然Faster R-CNN目標檢測的效果非常好,每個候選區域能輸出種類標籤和定位信息,那麼就在Faster R-CNN的基礎上再添加一個分支從而增加一個輸出,即物體掩膜(object mask),也即由原來的兩個任務(分類+迴歸)變爲了三個任務(分類+迴歸+分割)。如下圖所示,Mask R-CNN由兩條分支組成:
 
Mask R-CNN的這兩個分支是並行的,因此訓練簡單,僅比Faster R-CNN多了一點計算開銷。
分類和定位在Faster R-CNN中有介紹過了(詳見文章:大話目標檢測經典模型RCNN、Fast RCNN、Faster RCNN),在此就不再重複介紹,下面重點介紹一下第二條分支,即如何實現像素級的圖像分割。

如下圖所示,Mask R-CNN在Faster R-CNN中添加了一個全卷積網絡的分支(圖中白色部分),用於輸出二進制mask,以說明給定像素是否是目標的一部分。所謂二進制mask,就是當像素屬於目標的所有位置上時標識爲1,其它位置標識爲 0
 
從上圖可以看出,二進制mask是基於特徵圖輸出的,而原始圖像經過一系列的卷積、池化之後,尺寸大小已發生了多次變化,如果直接使用特徵圖輸出的二進制mask來分割圖像,那肯定是不準的。這時就需要進行了修正,也即使用RoIAlign替換RoIPooling
 
如上圖所示,原始圖像尺寸大小是128x128,經過卷積網絡之後的特徵圖變爲尺寸大小變爲 25x25。這時,如果想要圈出與原始圖像中左上方15x15像素對應的區域,那麼如何在特徵圖中選擇相對應的像素呢?
從上面兩張圖可以看出,原始圖像中的每個像素對應於特徵圖的25/128像素,因此,要從原始圖像中選擇15x15像素,則只需在特徵圖中選擇2.93x2.93像素(15x25/128=2.93),在RoIAlign中會使用雙線性插值法準確得到2.93像素的內容,這樣就能很大程度上,避免了錯位問題。
修改後的網絡結構如下圖所示(黑色部分爲原來的Faster R-CNN,紅色部分爲Mask R-CNN修改的部分)
 
從上圖可以看出損失函數變爲
 
損失函數爲分類誤差+檢測誤差+分割誤差,分類誤差和檢測(迴歸)誤差是Faster R-CNN中的,分割誤差爲Mask R-CNN中新加的。
對於每個MxM大小的ROI區域,mask分支有KxMxM維的輸出(K是指類別數量)。對於每一個像素,都是用sigmod函數求二值交叉熵,也即對每個像素都進行邏輯迴歸,得到平均的二值交叉熵誤差Lmask。通過引入預測K個輸出的機制,允許每個類都生成獨立的mask,以避免類間競爭,這樣就能解耦mask和種類預測。
對於每一個ROI區域,如果檢測得到屬於哪一個分類,就只使用該類的交叉熵誤差進行計算,也即對於一個ROI區域中KxMxM的輸出,真正有用的只是某個類別的MxM的輸出。如下圖所示:
 
例如目前有3個分類:貓、狗、人,檢測得到當前ROI屬於“人”這一類,那麼所使用的Lmask爲“人”這一分支的mask。

Mask R-CNN將這些二進制mask與來自Faster R-CNN的分類和邊界框組合,便產生了驚人的圖像精確分割,如下圖所示:

Mask R-CNN是一個小巧、靈活的通用對象實例分割框架,它不僅可以對圖像中的目標進行檢測,還可以對每一個目標輸出一個高質量的分割結果。另外,Mask R-CNN還易於泛化到其他任務,比如人物關鍵點檢測,如下圖所示:

從R-CNN、Fast R-CNN、Faster R-CNN到Mask R-CNN,每次進步不一定是跨越式的發展,這些進步實際上是直觀的且漸進的改進之路,但是它們的總和卻帶來了非常顯著的效果。
最後,總結一下目標檢測算法模型的發展歷程,如下圖所示:

牆裂建議

2017年,Kaiming He 等人發表了關於Mask R-CNN的經典論文《Mask R-CNN》,在論文中詳細介紹了Mask R-CNN的思想、原理和測試效果,建議閱讀該論文以進一步瞭解該模型。

關注本人公衆號“大數據與人工智能Lab”(BigdataAILab),然後回覆“論文”關鍵字可在線閱讀經典論文的內容

推薦相關閱讀

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章