[Receptive field_Object Detection/Tracking]卷积神经网络感受野

前不久,把烤箱玩得比较溜,结果肚子也玩得比较大QAQ…发奋减肥中(写100行代码,减1斤肉)
Flag:

  • 写100行代码,减1斤肉

背景

回到正题,最近在研究,实践VOT(visual object tracking,视觉目标追踪)相关的东西。用一些非常简单的原理,弄出个比较简单的demo(https://www.bilibili.com/video/BV1dv411q7ii)。然后开始注意到一点,就是网络对不同尺度目标的一个检出效果。

什么是感受野?

感受野是fmap上的一个cell所对应的原始图像上的大小。
如果感受野大,那么每个cell所呈现的特征,更加偏向于全局特征。
如果感受野小,那么每个所呈现的特征,更加偏向于局部特征。
一般来说,网络的深度越深,感受野越大,网路的性能越好

感受野对于检测效果

在yolov2中,整个网络就只有一个分支,也就是最后conv完,输出的是一个高层的fmap。这个fmap每个cell的感受野是单一的,所以对小目标的检出不太好。
而在yolov3中,整个网络有三个分支,分别对应三个尺度的fmap。
当fmap越大时,感受野越小,网络容易捕获到比较小的局部特征,利于检出小目标。
当fmap越小时,感受野越大,网络比较容易捕获到较大特征特征,利于检出大目标。
在这里插入图片描述

为什么做Tracking要研究感受野问题?

因为在进行tracking时,常常要考虑目标尺度的的放大和缩小问题。如果用单一尺度的fmap,进行tracking,当目标变得比较小/比较大的时候,单纯靠不同的anchor,就无法有效进行追踪了。(从一开始的demo视频中也可以看出,当目标尺度比较小的时候,tracking基本没啥用了QAQ)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章