【論文速讀】RCNN

路線1

(1)https://www.jianshu.com/p/52e6e184b786
(2)https://zhuanlan.zhihu.com/p/30316608
(3)http://blog.csdn.net/WoPawn/article/details/52133338
(4)其他知識點:
hard-negative mining https://www.zhihu.com/question/46292829/answers/created
map計算 http://caffecn.cn/?/question/1392 https://www.jianshu.com/p/f28a376748c4,http://blog.csdn.net/jesse_mx/article/details/79169991
https://zhuanlan.zhihu.com/p/23006190?refer=xiaoleimlnote(最後再過一遍)


【訓練階段】
A:訓練集中的所有圖像
(1)selective search

B:區域建議region proposal(每個圖片約2000個候選區域)
(2)擴大一定範圍,縮放圖片數量爲2000*(227*227:alexnet要求輸入圖像227*227)
(3)使用正樣本(真實樣本+IOU>0.5的建議框)負樣本(IOU<0.5建議框,其中背景樣本佔比75%)對AlexNet進行finetune(類別爲N+1,爲什麼不直接使用分類結果——效果不好)

C:候選區域的特徵:取CNN的f7層輸出
(4)使用正樣本(真實樣本)負樣本(IOU<0.3的建議框)的特徵x訓練(N+1)個SVM

D:候選區域的類別
(5)使用((4)中被確定了的最大IOU候選區域&其IOU>0.6,每個類別會找到N個最覆蓋了實際區域的框框)的邊框以及CNN訓練的【3過程提取了圖像的特徵,用來將原始座標映射爲新座標】pool5特徵,應用linear regression精確邊框座標(對於第i個lr模型,第j個真實區域的座標與第j個實際區域的座標可以理解有線性關係)

【測試階段】
A:輸入一張圖像
(1)selective search

B:區域建議region proposal:2000個候選區域
(2)擴大一定範圍,縮放圖片爲2000*(227*227)
(3)送入【訓練階段】後的Alexnet模型

C:候選區域的特徵:取CNN的f7層輸出2000*4096維矩陣
(4)使用20個SVM(權值矩陣:4096*20)分別確計算圖片屬於第N個類別的概率,獲得2000*20維矩陣,取最高

D:候選區域的類別
(5)使用20個迴歸器對上述20類別的建議框修正【爲什麼不只對(4)取出的最高類別進行修正?——(6)一個區域可能會有多個框框】
(6)使用非極大值抑制,保留最有可能的區域(一個區域,可能會有多個框框)

E:細化後的邊框座標

實驗心得
在網上找了一個網友使用f17lower的數據集進行訓練。(1是原始報告,2是對1的解讀,3、4是安裝)
1https://www.cnblogs.com/edwardbi/p/5647522.html
2https://blog.csdn.net/Houchaoqun_XMU/article/details/78640960
3https://www.cnblogs.com/wmr95/p/7500960.html
4https://blog.csdn.net/TotoroCyx/article/details/78503393
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章