Faster RCNN的理解和資料收集

Faster RCNN的理解和資料收集

資源收集

知乎一文看懂Faster RCNN
Bilibili唐宇迪老師關於tensorflow下faster rcnn的論文解讀和代碼解析
Faster RCNN論文中英翻譯

自己的理解

在這裏插入圖片描述
對於理解幫助比較大的是B站視頻和這篇知乎文章。
Faster RCNN先用一個VGG的卷積網絡來直接提取整張圖片的特徵(當然如圖所示調節了尺寸),這對比RCNN來說已經省去了太多代價消耗,RCNN採用SS方法先去挑選上千個region proposal,然後每個region還單獨搞一個CNN來提取特徵,實在是慢爆了。
這個VGG卷積網絡中有 卷積層、relu層和pooling層,因爲在外圈填0(具體叫什麼不記得了),所以卷積層不會縮放圖片,relu也不會,只有pooling一次 纔會將feature map長寬各縮小一半(應該一旦進入卷積網絡,就不叫圖片了,所以我這裏就把中間的結果和最後的結果都叫做feature map),因爲VGG有四個pooling層,所以最後的feature map尺寸相比輸入網絡的圖片大小,長寬都爲input的1/16,面積就是1/256了。然後這裏有一個注意的點,別人都提到了的就是,我們可以根據卷積網絡輸出的feature map來還原其中每個值所覆蓋的感受野(應該是這樣的意思奧)。
以上部分還是比較容易理解,Faster RCNN優於其他方法的重要一點就在接下來的這個RPN網絡(Region Proposal Networks)。這部分我感覺我理解的還是不太好。
在這裏插入圖片描述
這部分的理解,還是直接引用知乎上的那篇比較好的分享吧,說的真好,把我不太懂的講的很清晰。
https://zhuanlan.zhihu.com/p/31426458

其實RPN最終就是在原圖尺度上,設置了密密麻麻的候選Anchor。然後用cnn去判斷哪些Anchor是裏面有目標的positive anchor,哪些是沒目標的negative anchor。所以,僅僅是個二分類而已!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章