参考:
https://www.jianshu.com/p/cad68ca85e27
https://arxiv.org/abs/1506.02640
https://www.jianshu.com/p/13ec2aa50c12
https://www.imooc.com/article/36391
https://www.jianshu.com/p/f87be68977cb
https://www.cnblogs.com/xiongzihua/p/9315183.html
1. YOLO v1
网络框架:
1.1 其中,输入图像大小是448*448*3,输出大小是7*7*30,如上图,最后输出的一个像素值对应原图中的一个网格,即相当于将原图分割成7*7的网格:
- 最后输出的每个像素值都是一个30维的向量,每个像素对应原图中的一个网格,30等于2×5+20,即2个bbox值(bbox值包括座标和宽高),同时为每个bbox值预测一个置信度(confidence scores)。20表示某个类的中心落在当前单元格内的概率。
- 即前面10个值用来确定目标的位置(定位),后面20个值用来确定目标的类别(分类)。
- 输出结果中的一个像素,只能有一个类别,即要么是狗,要么是自行车,所以对应到原图中的网格,每个网格负责预测一种物体;为何用两个bbox,为了更准确的定位出物体。
1.2 分类功能简单,即20个0到1的值,哪个位置上的值大即属于哪个类,难点是定位功能:
因为定位和分类一样也视为回归任务,所以需要将座标数据值归一化为0到1之间,假设输出结果的其中一个像素值为,对应到原图即为上图的蓝色网格的检测结果,该目标的bbox是红色框。
1.2.1 (x, y)
(x, y)是红色bbox的中心(原图绿色点)相对于网格(当前网格是蓝色)的左边界和上边界偏移距离,由两个座标决定,分别是单元格左上角座标、bbox中心在原图像的座标位置。对于上图蓝色网格座标为,假设它输出的是红色框bbox,设bbox的中心座标,那么最终预测的结果是经过归一化处理的,表示的是绿色中心相对于蓝色网格的偏移,计算公式如下:
因为bbox中心相对於单元格的偏移量,即绿色点如果正好在蓝色单元格最左上角,则偏移量为0,如果正好在最右下角,则相对于左边界和上边界偏移量都为1,公式如下
其中,(w_i,h_i) 是单元格左上角座标,w_c, h_c是每个单元格的宽、高,(x_c, y_c) 是原图像的座标位置,x就是相对於单元格的左边界偏移的距离。所以x, y区间都是[0, 1]。
同理,y值一样,这样就实现了原图中所有的座标值都是0到1。
每个网络只有有一个类别,类别的中心只能在网格内移动。
1.2.2 (w,h)
(w,h)是红色bbox相对于整个图片的比例。预测的bbox的真实宽高为w_b, h_b,如上图所示。(w_i,h_i)表示的是原图宽、高,计算公式如下:
其中w_i值为448,假设w_b值为160,则w = 160 / 448 = 0.3571.
1.2.3 confidence
这个置信度是由两部分组成,一是格子内是否有目标(有为1,无为0),二是bbox的准确度(IoU,设置IoU是为了定位更准)。即如果有目标,置信度为IoU,否则置信度为0。用来评估目标位置是否准确,而不管具体类别。
一个网格,有两个bbox,所以就有两个confidence
1.2.4 C类的条件概率
20个条件概率定义为,表示该网格存在目标且属于第i类的概率。
测试的时候,将最终的输出是置信度乘以这20个条件概率值,得出一组20个概率值,因为有两组bbox,这样bbox1和bbox2的confidence分别乘以这20个条件概率值,就有两组概率值。送入NMS,得到最终的输出框结果。
1.3 损失函数
首先要明确两个概念,一是网格中有无目标,二是网格中的一个目标只有一个box负责(responsible)另一个box也算没有目标,根据在线计算IOU的大小确定哪一个负责。
其中,是在遍历网格,是在遍历每个网格的bbox,表示选取个bbox中框出ground truth的那几个bbox。剩下的未被选择的,就给了. λ是用来调节类别不平衡的超参数。
confidence损失:负责检测的box的label是在线计算的IOU,不负责和无目标的都为0,为了平衡,加入λnoobj
位置损失:容易理解,负责检测的才有位置损失,其他的都不需回传损失,也就不需要计算,此外小目标对于预测wh的误差更敏感,用开根的方法缓解。举例来说,大小为10和大小为100的目标,预测大小分别为20和110,损失一样但是显然小目标检测的更差一些,开根后,,而,相当于强化了小目标的损失。
类别损失:容易理解,含有目标的网格才有类别损失,其他都不需要回传损失,也就不需要计算。默认网格只出现一种类别,这当然是有缺陷的。yolov1对于一些聚集的目标,检测效果会不好。其实聚集目标本身也算很难检测的情况吧。
- 可以看到损失函数包括5个部分。第一部分是x,y座标;第二部分是w,h,采用根号使得小方框size变化的损失比大方框size变化的损失大,因为小目标对于预测wh的误差更敏感;第三部分是方框置信度损失,回归目标是预测方框与实际方框的IOU值;前三部分都只在预测方框和实际方框有对应关系时才计算loss;
- 第四部分是没有对应物体的方框置信度损失,实际的置信度都是0;
- 第五部分是分类损失,当方格与物体有对应关系时,才计算分类损失。
因为在图片中很多方格都不包含物体,使得方格预测方框的置信分数趋于0。所以对包含物体的方格加大权重,对不包含物体的方格减小权重。论文中有,
待续。。。