論文解讀-

論文解讀-

論文題目：《Instance-aware Semantic Segmentation via Multi-task Network Cascades》

論文信息： CVPR2016,Jifeng Dai, Kaiming He, Jian Sun, Microsoft Research

論文： https://arxiv.org/abs/1512.04412

作者主頁： http://research.microsoft.com/en-us/um/people/jifdai/

代碼鏈接： https://github.com/daijifeng001/MNC

1. 論文的工作

1）顯著性分割

2）實例感知

這篇論文主要的工作在於對一張圖片進行顯著性分割，一般的顯著性只進行到分割，並不能識別分割出來的物體是什麼類別的，這篇文章，除了進行顯著性分割，還能對分割出來的物體進行識別，判別出是何種類別。

（圖片來源於論文，左邊爲原始圖片，中間爲論文結果，包括顯著性分割及實例分類，右邊爲groundtruth）

2. 論文的想法

1）整體框架

對於傳統的多任務方法，在共享特徵的基礎上，每個任務同時進行，在後續的實驗中，各個任務之間互不干擾，互相獨立。

這篇論文提出的多任務方法，在共享特徵的基礎上，下一個任務依賴於上一個任務以及共享特徵，如此形成層級的多任務結構。

（圖片來源於論文）

2）詳細解析

這篇論文主要做三個任務：

(1). 實例區分（Differentiating instances）

(2). 掩膜估計 ( Estimating masks)

(3). 分類目標 (Categorizing objects)

可以使用VGG-16前13層學到的特徵作爲共享特徵。

每個任務階段都包括一個損失項，下一任務階段的損失依賴於上一任務的損失。

爲了實現反向傳播，論文使用了關於空間座標可微的網絡層，使得梯度可計算。

（圖片來源於論文）

（1）. 實例區分

在這一任務階段，輸入爲共享的特徵，輸出爲bounding box。

方法：網絡結構以及損失函數採用區域生成網絡（Region Proposal Network, RPN）。RPN 爲用全卷積形式來預測bounding box的位置和目標得分。

損失函數：

：儘量優化後的所有網絡參數。

： box的索引。： box的中心。： box的寬度以及高度。：目標概率。

表明網絡參數的函數爲box 的預測。

（2）. 掩膜估計

在這一任務階段，輸入爲共享特徵和第一任務階段產生的bouding box，輸出爲像素級的masks.

方法：通過RoI （Region of Interest） pooling來提取box裏感興趣的特徵，（RoI pooling 用來將box減小到固定大小的特徵）。隨後增加兩層全連接層。第一個全連接層將特徵維度降低到256，第二個全連接層迴歸像素級的mask.

損失函數：

：輸出的mask。

第二層的損失依賴於第一次的損失。

（3）. 分類目標

在這一任務階段，輸入爲共享特徵，第一任務階段產生的bouding box 和第二階段產生的mask，輸出爲每個實例的分類得分。

方法：在使用RPN得到 bounding box 之後，

一方面，由RoI pooling 後加兩層卷積（第二任務階段的方法）得到mask 特徵，

另一方面，由RoI pooling 直接連接兩層4096維卷積層，得到特徵。

這兩方面得到的特徵相連接，使用softmax分類。N+1類。N個實例類別，1個背景類別。

mask特徵：

： RoI pooling 得到的特徵。： mask 的預測。

損失函數：

：所有實例的預測類別。

3. 端到端的訓練

爲了實現端到端的訓練，論文實現了可微的RoI pooling.使用隨機梯度下降來訓練模型。

4. 級聯更多階段

任務階段1,2,3爲前面提到的方法，任務階段1得到bounding box，任務階段2得到mask ，任務階段3得到實例分類，

在任務階段3，選擇類別數考前的bounding box 作爲新的 bounding box，

任務階段4採用與任務階段2相同的方法，得到新的mask,

任務階段5採用與任務階段3相同的方法，最終得到實例分類。

（圖片來源於論文）

5. 實現細節

第一階段產生的box 數目很多，論文用NMS（非極大值抑制），獲得300個box用於後續任務階段。

6.最後爲論文的實驗結果

後記：文章思路：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

java由於越界導致的報錯

Caffe部署中的幾個train-test-solver-prototxt-deploy等說明

調用caffe進行網絡訓練（caffe.cpp 解析）

caffe，將數據轉換爲lmdb/leveldb,convert_imageset.cpp 解析

搭建faster-rcnn進行目標檢測的環境

caffe增加額外的依賴庫

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結