[Receptive field_Object Detection/Tracking]卷積神經網絡感受野

前不久,把烤箱玩得比較溜,結果肚子也玩得比較大QAQ…發奮減肥中(寫100行代碼,減1斤肉)
Flag:

  • 寫100行代碼,減1斤肉

背景

回到正題,最近在研究,實踐VOT(visual object tracking,視覺目標追蹤)相關的東西。用一些非常簡單的原理,弄出個比較簡單的demo(https://www.bilibili.com/video/BV1dv411q7ii)。然後開始注意到一點,就是網絡對不同尺度目標的一個檢出效果。

什麼是感受野?

感受野是fmap上的一個cell所對應的原始圖像上的大小。
如果感受野大,那麼每個cell所呈現的特徵,更加偏向於全局特徵。
如果感受野小,那麼每個所呈現的特徵,更加偏向於局部特徵。
一般來說,網絡的深度越深,感受野越大,網路的性能越好

感受野對於檢測效果

在yolov2中,整個網絡就只有一個分支,也就是最後conv完,輸出的是一個高層的fmap。這個fmap每個cell的感受野是單一的,所以對小目標的檢出不太好。
而在yolov3中,整個網絡有三個分支,分別對應三個尺度的fmap。
當fmap越大時,感受野越小,網絡容易捕獲到比較小的局部特徵,利於檢出小目標。
當fmap越小時,感受野越大,網絡比較容易捕獲到較大特徵特徵,利於檢出大目標。
在這裏插入圖片描述

爲什麼做Tracking要研究感受野問題?

因爲在進行tracking時,常常要考慮目標尺度的的放大和縮小問題。如果用單一尺度的fmap,進行tracking,當目標變得比較小/比較大的時候,單純靠不同的anchor,就無法有效進行追蹤了。(從一開始的demo視頻中也可以看出,當目標尺度比較小的時候,tracking基本沒啥用了QAQ)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章