MASK R-CNN

原創

2019-05-07 08:26

https://github.com/facebookresearch/Detectron.

1. 素質四連

要解決什麼問題？

- 之前的研究使得物體檢測、圖像分割任務的性能有了很大的提高，但對物體分割任務（instance segmentation）沒有很大提升。
- 建立一套基於物體分隔的模型架構。

用了什麼方法解決？

- 在Faster R-CNN添加了預測mask的部分（與預測bbox的類別信息與位置信息平行）。

效果如何？

- 沒有進行大規模優化，就在COCO數據集的三項任務——物體分割、物體檢測、人體關鍵點檢測中超過其他所有模型。
- 使用RoI Align解決 mis-alignment 的問題，提高模型精度（特別是對於小物體）。

還存在什麼問題？

- Faster R-CNN系模型的主要問題在於測試速度慢，達不到實時要求。
- PS：爲了訓練COCO，論文中用8GP訓練了2天，對我這種就1塊GPU的人來說……

2. 網絡結構

2.1. 綜述

大部分結構與Faster R-CNN相同。
不同之處：

- 使用RoIAlign替代RoIPool。
- 添加預測mask的分支（與預測bbox平行）。

2.2. 論文配圖如下

流程介紹：

- 原始圖片（圖中最左邊的圖片）通過基礎網絡（圖中忽略）提取特徵。
- RPN（圖中忽略）以基礎網絡特徵圖爲輸入，獲取一系列RoI（圖中 RoIAlign 層中的多個矩形框），即候選區域。
- RoIAlign（圖中RoIAlign）以基礎網絡特徵圖爲輸入，結合RPN層獲取的RoI，爲每個RoI獲取固定尺寸的特徵圖（圖中左邊數第一個conv層）。
- 以RoIAlign層輸出的固定尺寸特徵圖爲輸入，預測圖像的bbox，包括位置信息與分類信息。（即圖中獲取 class box的結果）。
- 以RoIAlign層輸出的固定尺寸特徵圖爲輸入，預測圖像的mask。（即圖中兩個conv以及最終結果）。

2.3. 模型分層

基礎網絡，論文中使用了以下兩中基礎網絡：

- Faster R-CNN原文中使用的ResNet。
- 另一篇論文中提到的 ResNet-EPN。

Head Architecture：

- 以基礎網絡輸出作爲輸入，預測bbox、instance segmentation信息。
- 與Faster R-CNN不同之處（論文配圖如下）

- - 灰色背景部分是原先的結構，其他部分是Mask R-CNN的添加部分。

3. 重點

3.1. Mask

Mask的設計：

- 對每個RoI分別預測其mask。
- 解耦（decouple）mask和分類信息，換句話說，就是每一類物體分別預測mask。
- 從模型角度，每個RoI的的mask預測結果尺寸爲[m, m, k]，其中m爲mask的長寬，k爲分類數量。
- 在實際運行時，根據RoI的分類信息，來選擇對應通道的mask。

如何計算mask？

- 輸入：RoIAlign輸出的固定尺寸特徵圖。
- 輸出：shape爲[m, m, k]的mask。
- 方法：論文中說，利用FCN論文（圖像分割算法）中的方法計算，本質就是利用轉置卷積操作。
- 其他方法：參考資料TensorFlow Object Detection API 中的 box_predictor.py，_predict_masks函數使用了bilinear resize和convolution來替代轉置卷積。

3.2. RoIAlign

參考博客（強烈推薦）：詳解 ROI Align 的基本原理和實現細節。
強烈推薦看上面這篇文章，但我自己還是要稍微總結一下。
RoIAlign要解決的問題（即RoI Pooling存在缺陷）：

- 在計算RoI Pooling時，會進行兩次量化（在這裏指的就是去掉小數部分，只保留整數）：

- - 獲取每個RoI在基礎網絡特徵圖中對應的區域時，會對對應區域的特徵圖邊界進行量化。
  - 在將RoI對應的特徵圖轉化爲固定尺寸的特徵圖時，也會進行量化。

- 問題描述：在進行量化時，特徵圖對應的原始數據會有減少，影響模型整體精度。

解決方案：保留所有特徵圖所在浮點數位置座標，使用雙線性插值獲取特徵圖上所有點的取值。
論文配圖如下：

- 圖中黑色點就是當前特徵圖中各點位置（位置座標不一定是整數）。
- 圖中虛線相交點位置就是原始特徵圖中各點的實際位置（位置座標都是整數）。
- 以左上角黑點爲例，雙線性插值通過與四個當前黑點最近的實際特徵點（位置座標都是整數），來計算當前特徵點（位置座標不一定是整數）取值。

3.3. 訓練細節

損失函數：

- 分爲三部分：分類損失（與Faster R-CNN相同），位置損失（與Faster R-CNN相同），mask損失（本論文特有）。
- Mask 損失：

- - mask的結果是K*m*m維向量，其中K爲類別數量，m*m是mask的最終輸出長寬。
  - 計算每個像素的sigmoid結果，最終Mask 損失就是二維交叉熵損失的平均值（average binary cross-entropy loss）。

每個GPU同時訓練兩張圖片（作者用了8GPU，所以batch size是16），輸入圖片尺寸爲800*800。
訓練時，每張圖片的RoI數量爲64/512（根據基礎網絡不同而改變）；測試時每張圖片RoI數量爲300/1000。
正反例比例爲1:3。
anchors使用 5 scales 和 3 aspect ratios。
weight decay爲0.0001。
學習率：0.02，到120k iteration後爲除以10。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【Julia Deep Learning CV】第一篇 MNIST

2020-07-08 00:23:43

[blog7]ubuntu18.04安裝opencv3.4.5 python2.7和python3.6

參考https://blog.csdn.net/weixin_41851439/article/details/88712465 https://opencv.org/releases.html下載想要版本的source文件，安裝依賴項

2020-07-07 23:07:48

CV-梯度下降

GD θnext=θlast−ωf′(θi) \Large \theta_{next} = \theta_{last} - \omega f'(\theta_i) θnext=θlast−ωf′(θi) 直到 f′(θne

2020-07-07 20:06:56

CV-色彩空間

色彩三要素色相：基色明度：明暗純度：飽和其中明度和純度感官差異上有些區分不開，可以藉助如下定義純度：顏色中灰色含量的多少亮度：顏色中黑白佔比的多少因爲明亮和飽和的顏色都會對眼睛有明顯的刺激，反正我是分不太

2020-07-07 20:06:56

CNN卷積神經網絡結構遐思

殘缺的神經網絡卷積神經網絡，是神經網絡的子集，是殘缺的神經網絡。 [a00a01a02a10a11a12a20a21a22]⊙[b00b01b10b11]=[c00c01c10c11] \left[\begin{matrix}a

2020-07-07 20:06:56

CV-color

https://nbviewer.jupyter.org/github/forevaer/cv_note/blob/master/1/homework/homework_color.ipynb

2020-07-07 20:06:56

02：像素處理

二值圖像及灰度圖像 1、前提說明：在openCV中，最小的數據類型是無符號的8位數，二值圖像是經過處理得到的 2、圖像可以理解爲一個矩陣，一個openCV灰度圖像就是一個二維數組，可以使用表達式訪問其像素值，例如可以使用[0,0]

2020-07-07 19:32:50

Infrared and visible image perceptive fusion through multi-level Gaussian curvature filtering image

圖像融合---簡單認識圖像融合 Image fusion - Simply recognize image fusion 概念圖像融合（Image Fusion）是指將多源信道所採集到的關於同一目標的圖像數據經過圖像處理和計算機

李伯爵的指间沙

2020-07-07 19:04:25

DeepStream結合OpenCV4實現視頻的分析和截圖（一）

目錄安裝環境 Deepstream-test4配置文件改寫調用OpenCV截圖存疑其他收穫前言本文實現基於test4，基於deepstream-app的更改和代碼更新見DeepStream結合OpenCV4實現視頻的分析和

2020-07-07 16:54:09

ResNet/ResNet-I3D/ResNet-I3D-SlowFast 源碼閱讀

文章目錄0. 前言1. ResNet50-2D2. ResNet-I3D3. ResNet-I3D-SlowFast 0. 前言目標：更好的理解2D/I3D/SlowFast模型。爲了實現MobileNet/Shuff

清欢守护者

2020-07-07 14:47:10

論文瀏覽(11) A Multigrid Method for Efficiently Training Video Models

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀論文基本信息領域：視頻理解訓練加速作者單位：FAIR&得克薩

清欢守护者

2020-07-07 14:47:10

論文瀏覽(10) Towards Real-Time Multi-Object Tracking

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀，翻譯論文基本信息領域：多目標跟蹤作者單位：清華&澳大利亞國立

清欢守护者

2020-07-07 14:47:10

論文瀏覽(9) A Simple Baseline for Multi-Object Tracking

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀論文基本信息領域：多目標跟蹤作者單位：華科&微軟亞洲研究院發

清欢守护者

2020-07-07 14:47:08

論文瀏覽(15) Online Action Detection

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github，這個是作者github repo，但沒寫自己是…… 論文解讀，推薦參考資料論

清欢守护者

2020-07-07 14:47:08

論文瀏覽(13) Resource Efficient 3D Convolutional Neural Networks

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀論文基本信息領域：行爲識別作者單位：慕尼黑工業大學&英特爾歐洲

清欢守护者

2020-07-07 14:47:08

24小時熱門文章

最新文章

最新評論文章