前不久,把烤箱玩得比較溜,結果肚子也玩得比較大QAQ…發奮減肥中(寫100行代碼,減1斤肉)
Flag:
- 寫100行代碼,減1斤肉
背景
回到正題,最近在研究,實踐VOT(visual object tracking,視覺目標追蹤)相關的東西。用一些非常簡單的原理,弄出個比較簡單的demo(https://www.bilibili.com/video/BV1dv411q7ii)。然後開始注意到一點,就是網絡對不同尺度目標的一個檢出效果。
什麼是感受野?
感受野是fmap上的一個cell所對應的原始圖像上的大小。
如果感受野大,那麼每個cell所呈現的特徵,更加偏向於全局特徵。
如果感受野小,那麼每個所呈現的特徵,更加偏向於局部特徵。
一般來說,網絡的深度越深,感受野越大,網路的性能越好
感受野對於檢測效果
在yolov2中,整個網絡就只有一個分支,也就是最後conv完,輸出的是一個高層的fmap。這個fmap每個cell的感受野是單一的,所以對小目標的檢出不太好。
而在yolov3中,整個網絡有三個分支,分別對應三個尺度的fmap。
當fmap越大時,感受野越小,網絡容易捕獲到比較小的局部特徵,利於檢出小目標。
當fmap越小時,感受野越大,網絡比較容易捕獲到較大特徵特徵,利於檢出大目標。
爲什麼做Tracking要研究感受野問題?
因爲在進行tracking時,常常要考慮目標尺度的的放大和縮小問題。如果用單一尺度的fmap,進行tracking,當目標變得比較小/比較大的時候,單純靠不同的anchor,就無法有效進行追蹤了。(從一開始的demo視頻中也可以看出,當目標尺度比較小的時候,tracking基本沒啥用了QAQ)