Faster RCNN的理解和資料收集

資源收集

知乎一文看懂Faster RCNN
Bilibili唐宇迪老師關於tensorflow下faster rcnn的論文解讀和代碼解析
 Faster RCNN論文中英翻譯

自己的理解

對於理解幫助比較大的是B站視頻和這篇知乎文章。
Faster RCNN先用一個VGG的卷積網絡來直接提取整張圖片的特徵（當然如圖所示調節了尺寸），這對比RCNN來說已經省去了太多代價消耗，RCNN採用SS方法先去挑選上千個region proposal，然後每個region還單獨搞一個CNN來提取特徵，實在是慢爆了。
這個VGG卷積網絡中有卷積層、relu層和pooling層，因爲在外圈填0（具體叫什麼不記得了），所以卷積層不會縮放圖片，relu也不會，只有pooling一次纔會將feature map長寬各縮小一半（應該一旦進入卷積網絡，就不叫圖片了，所以我這裏就把中間的結果和最後的結果都叫做feature map），因爲VGG有四個pooling層，所以最後的feature map尺寸相比輸入網絡的圖片大小，長寬都爲input的1/16，面積就是1/256了。然後這裏有一個注意的點，別人都提到了的就是，我們可以根據卷積網絡輸出的feature map來還原其中每個值所覆蓋的感受野（應該是這樣的意思奧）。
以上部分還是比較容易理解，Faster RCNN優於其他方法的重要一點就在接下來的這個RPN網絡（Region Proposal Networks）。這部分我感覺我理解的還是不太好。

這部分的理解，還是直接引用知乎上的那篇比較好的分享吧，說的真好，把我不太懂的講的很清晰。
https://zhuanlan.zhihu.com/p/31426458

其實RPN最終就是在原圖尺度上，設置了密密麻麻的候選Anchor。然後用cnn去判斷哪些Anchor是裏面有目標的positive anchor，哪些是沒目標的negative anchor。所以，僅僅是個二分類而已！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Faster RCNN的理解和資料收集

Faster RCNN的理解和資料收集

資源收集

自己的理解

Android啓動過程-萬字長文(Android14)

這種嵌套字典類型的數據，我想把它讀取到df裏，如何操作？

微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺

iNeuOS工業互聯網操作系統，增加電力IEC104協議

微服務實踐k8s&dapr開發部署實驗（3）訂閱發佈

kbgressdb之數據結構V0.2

Numpy和Pandas中的axis=0 和axis=1的區分

記一次傻逼逼的python引入自定義的庫函數

Kaggle tensorflow2.0 解決手寫數字體識別問題

cs231n homework 兩層全連接神經網絡分類CIFAR-10

CIFAR-10 SVM方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結