目标检测
- 目标分类与定位(classification with localization)
- 滑动窗口的卷积实现
- YOLO algorithm
- 交并比(Intersection over union)
- 非极大值抑制(Non-max suppression)
1.目标分类与定位
训练一个卷积神经网络,标签为类别和边界框的座标值,labels={c,bx,by,bh,bw}
2.滑动窗口的卷积实现
将FC神经网络转化为卷积神经网络,即,将神经元变为1x1的feature map,将中间的权重相应的变为适当的过滤器
滑动窗口实现目标检测的原理:如将图片分为3x3个区域,依次喂入训练好的卷积神经网络输出结果,输出结果为类别。
这样的话,计算成本比较大。滑动窗口的卷积神经网络则很好的解决了这个问题。
将全连接层变为卷积层后,我们发现,滑动窗口对应的输出结果(维度为4),刚好对应将整个图片喂入卷积神经网络的左上角的输出结果(维度为1x1x4),所以一个一个喂入滑动的区域与整个图片喂入网络在数学上的形式是一样的。所以只需进行一次前向传播,就可以得到与滑动窗口一样的输出结果,节省了计算成本。
这样的滑动窗口的卷积神经网络仍存在缺点,就是边界框的位置可能不够准确。应为它完全取决去划分的窗口的大小和滑动的步幅。
3.YOLO algorithm
YOLO 解决了滑动窗口边界框位置不准确的缺点。
YOLO将图片分为3x3个区域,在这个图片上进行滑动窗口的卷积网络,输出不再只为类别c,而是{pc,bx,by,bh,bw,c1,c2,c3},pc等于0或1取决去这个格子中是否有图像。bx,by,bh,bw为这个格子中的检测出来的边界框
假设图片的大小为100x100x3,YOLO输出为3x3x8.
4.交并比
黄色区域为ground truth , 绿色为prediction,IOU为评价标准,一般取IOU大于0.5
5.非极大值抑制