目標 | 1能直觀感受整個過程 2學習新idea |
計劃 | 1過一遍英文論文(配合中文論文)——4days 2速讀RCNN發展歷史blog——5days 3學習RCNN、 4FastRCNN(7days) 5Faster-RCNN、MAskRCNN、後期 |
實際 | 1過一遍論文翻譯(5days——2018/3/5)【Done】 2速讀歷史: RCNN(Done) Fast R-CNN()
|
http://deeplearning.csail.mit.edu/
http://chuansong.me/n/353443351445
https://www.zhihu.com/people/jennywei528/answers
http://www.cnblogs.com/wuxiangli/p/7066707.html
https://zhuanlan.zhihu.com/p/21533724
1過一遍論文翻譯(5days)【Done】
https://wenku.baidu.com/view/55616aeb03d276a20029bd64783e0912a2167ced.html
https://alvinzhu.xyz/2017/10/07/mask-r-cnn/#fn:18
http://blog.csdn.net/myGFZ/article/details/79136610
2難度太大,速讀歷史(2days)(RCNN ——》Fast RCNN——》Faster RCNN)簡介【Done】
閱讀順序
翻譯了同一論文,第三篇有助理解前兩篇
(1)https://zhuanlan.zhihu.com/p/26655034
(2)https://zhuanlan.zhihu.com/p/26652657
(3)https://zhuanlan.zhihu.com/p/30967656
圖像檢測=圖像分類+邊框檢查
————————————————————————Fast R-CNN
https://zhuanlan.zhihu.com/p/30368989
https://www.jianshu.com/p/7c35ba55ad61
http://jacobkong.github.io/posts/1679631826/
https://zhuanlan.zhihu.com/p/24780395
http://blog.csdn.net/wopawn/article/details/52463853
https://www.jianshu.com/p/38bed2b9f49a
關於背景sppnet介紹:
https://www.davex.pw/2018/02/11/paper-reading-of-spp-net/
http://hellodfan.com/2017/09/30/%E7%89%A9%E4%BD%93%E6%A3%80%E6%B5%8B%E8%AE%BA%E6%96%87-SPPNet/
https://blog.csdn.net/skying_li/article/details/70158924
閃光點:
1)共享計算結果:ROI pooling
原先1個圖片有2000個候選區域,每個候選區域需要做1次的前向計算(在Alexnet中),得到每個候選區域的特徵圖——》對輸入圖片做一次前向計算輸出整個圖形的特徵圖,根據每個圖形的特徵圖分別提取2000個候選區的特徵圖
2)multi-task:一個模型搞定上述2、3、4(end- end)
SVM:在CNN輸出層用softmax函數
LR:在CNN輸出層加入了用來輸出邊界框座標的線性迴歸層。
【訓練階段】A:輸入訓練集
(1)使用正樣本(真實樣本+IOU>0.5的建議框)負樣本(0.1<IOU<0.5建議框,其中背景樣本佔比75%)(數據增廣:50%概率水平翻轉),修改VGG的最後一層池化層爲Rol池化層,獲取整幅圖像的特徵,得到特徵圖
進行selective search得到2000個邊框座標
B:區域建議region proposal:2000個邊框座標+對應的特徵圖
(2)在特徵圖種找到建議框所映射的候選區域的特徵框
(3)使用ROI處理特徵框爲爲同一大小H*W
(3)特徵框經過全連接層(SVD分解)得到固定大小的特徵向量
C:固定大小的特徵向量
(4)softmax分類得分
bounding-box窗口迴歸
(5)用非極大值抑制,保留最有可能的區域
E:細化後的邊框座標
缺陷:1)3個訓練模型2)使用SS搜索慢
【測試階段】
A:輸入一張圖像
(1)送入imagenet獲取整幅圖像的特徵,得到特徵圖
進行selective search得到2000個邊框座標
B:區域建議region proposal:2000個邊框座標+對應的特徵圖
(2)在特徵圖種找到建議框所映射的候選區域的特徵框
(3)使用ROI處理特徵框爲爲同一大小H*W
(3)特徵框經過全連接層(SVD分解)得到固定大小的特徵向量
C:固定大小的特徵向量
(4)softmax分類得分
bounding-box窗口迴歸
(5)用非極大值抑制,保留最有可能的區域
E:細化後的邊框座標缺陷:1)3個訓練模型2)使用SS搜索慢
Faster R-CNN:改進(region proposer)
https://zhuanlan.zhihu.com/p/30720870
https://www.jianshu.com/p/8f78a9350117
http://jacobkong.github.io/posts/3802700508/
https://www.jianshu.com/p/3a2b92206658
輸入:圖像(不需要帶有區域建議)
輸出:每個區域的對象類別+相關的緊密邊界框
區域建議網絡(egion Proposal Network, RPN)使用CNN裏的第一個卷積層前進傳播過程中的圖像特徵(構建了k個anchor boxes(common aspect ratios),每個anchor box輸出bounding box和對應的位置圖像的分數))——fastcnn
1,單獨訓練RPN;
2,使用步驟中1得到的區域生成方法單獨訓練Fast R-CNN;
3, 使用步驟2得到的網絡作爲初始網絡訓練RPN;
4, 再次訓練Fast R-CNN, 微調參數。
Mask Fast-RCNN:擴展到像素級切割
1)RoIPool--》RoIAlign(雙線性插值)
2)Faster R-CNN的CNN特徵頂部添加了一個完全卷積網絡(Fully Convolutional Network,FCN),用來生成掩碼(Binary Mask分割輸出),判斷給定像素是否屬於物體【對各個區域分割時,解除不同類之間的耦合。假設有K類物體,一般的分割方法直接預測一個有K個通道的輸出,其中每個通道代表對應的類別。而Mask R-CNN預測K個有2個通道(前景和背景)的輸出,這樣各個類別的預測是獨立的】
輸入:CNN特徵圖。
輸出:指示像素是否屬於物體的二值矩陣【在像素屬於對象的所有位置上都具有1s的矩陣,其他位置爲0s,這種規則被稱爲二進制掩碼。】FastR-CNN;
Region Proposal Network(RPN: propose candidate object bounding boxes)+extract features using RoIpool(RoI: region of Interest) from each candidate box and performs classification and bounding-box regression
http://blog.csdn.net/gavin__zhou/article/details/51996615
http://blog.csdn.net/u014544555/article/details/79381342
http://blog.csdn.net/tigerda/article/details/78527870?locationNum=2&fps=1
http://blog.csdn.net/linolzhang/article/details/71774168
https://zhuanlan.zhihu.com/p/32830206
2 Mask R-CNN
Mask:A mask encodes an input object’s spatial layout.
任務:
object instance segmentation
輸出:
1 detect object in an image 2 generate a high-quality segmentation mask for each instance
一句話概括框架:
add a branch for predicting an object mask in parallel with the existing branch for bounding box recognition
框架介紹:
(PRN)+(Fast R-CNN:output bounding-box classification and regression +FCN:output abinary mask for each RoI)
提取特徵:ResNet-FPN+ResNet C4 :the convolutional backbone architecture used for feature extraction over an entire image
分類:the network headfor bounding-box recognition (classification and regression)and mask prediction that is applied separately to each RoI.
Loss:
multi-task Loss:each sampled ROI as L=Lcls+Lbox+Lmask(定義:The mask branch has a Km2 dimensional output for each RoI, which encodes K binary masks of resolution m*m, one for each of the K classes;計算:sigmoid+average binary cross-entropy loss;真實類別爲k的Rol,僅算第k個的Lmask)
安裝:
https://www.cnblogs.com/Anita9002/p/8335710.html
http://blog.csdn.net/wei_guo_xd/article/details/78579534
http://blog.csdn.net/xiongchao99/article/details/79122428
https://yq.aliyun.com/articles/238716