02 YOLO系列总结

参考:

https://www.jianshu.com/p/cad68ca85e27

https://arxiv.org/abs/1506.02640

https://www.jianshu.com/p/13ec2aa50c12

https://www.imooc.com/article/36391

https://www.jianshu.com/p/f87be68977cb

https://www.cnblogs.com/xiongzihua/p/9315183.html

1. YOLO v1

网络框架:

1.1 其中,输入图像大小是448*448*3,输出大小是7*7*30,如上图,最后输出的一个像素值对应原图中的一个网格,即相当于将原图分割成7*7的网格:

  • 最后输出的每个像素值都是一个30维的向量,每个像素对应原图中的一个网格,30等于2×5+20,即2个bbox值(bbox值包括座标和宽高),同时为每个bbox值预测一个置信度(confidence scores)。20表示某个类的中心落在当前单元格内的概率。
  • 即前面10个值用来确定目标的位置(定位),后面20个值用来确定目标的类别(分类)。
  • 输出结果中的一个像素,只能有一个类别,即要么是狗,要么是自行车,所以对应到原图中的网格,每个网格负责预测一种物体;为何用两个bbox,为了更准确的定位出物体。

 

1.2 分类功能简单,即20个0到1的值,哪个位置上的值大即属于哪个类,难点是定位功能:

 

因为定位和分类一样也视为回归任务,所以需要将座标数据值归一化为0到1之间,假设输出结果的其中一个像素值为(x,y,w,h,confidence),对应到原图即为上图的蓝色网格的检测结果,该目标的bbox是红色框。

1.2.1 (x, y)

(x, y)是红色bbox的中心(原图绿色点)相对于网格(当前网格是蓝色)的左边界和上边界偏移距离,由两个座标决定,分别是单元格左上角座标、bbox中心在原图像的座标位置。对于上图蓝色网格座标为(x_{col} = 1, y_{row} = 4),假设它输出的是红色框bbox,设bbox的中心座标(x_c, y_c),那么最终预测的结果(x,y)是经过归一化处理的,表示的是绿色中心相对于蓝色网格的偏移,计算公式如下:

因为bbox中心相对於单元格的偏移量,即绿色点如果正好在蓝色单元格最左上角,则偏移量为0,如果正好在最右下角,则相对于左边界和上边界偏移量都为1,公式如下

\large x = \frac{x_c - w_i}{w_c}

\large y = \frac{y_c - h_i}{h_c}

其中,(w_i,h_i) 是单元格左上角座标,w_c, h_c是每个单元格的宽、高,(x_c, y_c) 是原图像的座标位置,x就是相对於单元格的左边界偏移的距离。所以x, y区间都是[0, 1]。

同理,y值一样,这样就实现了原图中所有的座标值都是0到1。

每个网络只有有一个类别,类别的中心只能在网格内移动。

1.2.2 (w,h)

(w,h)是红色bbox相对于整个图片的比例。预测的bbox的真实宽高为w_b, h_b,如上图所示。(w_i,h_i)表示的是原图宽、高,计算公式如下:

w = \frac{w_b}{w_i}

h = \frac{h_b}{h_i}

其中w_i值为448,假设w_b值为160,则w = 160 / 448 = 0.3571. 

1.2.3 confidence

这个置信度是由两部分组成,一是格子内是否有目标(有为1,无为0),二是bbox的准确度(IoU,设置IoU是为了定位更准)。即如果有目标,置信度为IoU,否则置信度为0。用来评估目标位置是否准确,而不管具体类别。

一个网格,有两个bbox,所以就有两个confidence

1.2.4 C类的条件概率

20个条件概率定义为\large p_r = (Class_i|Object),表示该网格存在目标且属于第i类的概率。

测试的时候,将最终的输出是置信度乘以这20个条件概率值,得出一组20个概率值,因为有两组bbox,这样bbox1和bbox2的confidence分别乘以这20个条件概率值,就有两组概率值。送入NMS,得到最终的输出框结果。

1.3 损失函数

首先要明确两个概念,一是网格中有无目标,二是网格中的一个目标只有一个box负责(responsible)另一个box也算没有目标,根据在线计算IOU的大小确定哪一个负责。

其中,\sum_{i=1}^{S^2}是在遍历网格,\sum_{j=1}^{B}是在遍历每个网格的bbox,\large 1_{ij}^{obj}表示选取S^2*B个bbox中框出ground truth的那几个bbox。剩下的未被选择的,就给了\large 1_{ij}^{noobj}. λ是用来调节类别不平衡的超参数。

confidence损失:负责检测的box的label是在线计算的IOU,不负责和无目标的都为0,为了平衡,加入λnoobj

位置损失:容易理解,负责检测的才有位置损失,其他的都不需回传损失,也就不需要计算,此外小目标对于预测wh的误差更敏感,用开根的方法缓解。举例来说,大小为10和大小为100的目标,预测大小分别为20和110,损失一样但是显然小目标检测的更差一些,开根后,\large (\sqrt{20}-\sqrt{10})^2=1.7,而\large (\sqrt{110}-\sqrt{010})^2=0.24,相当于强化了小目标的损失。

类别损失:容易理解,含有目标的网格才有类别损失,其他都不需要回传损失,也就不需要计算。默认网格只出现一种类别,这当然是有缺陷的。yolov1对于一些聚集的目标,检测效果会不好。其实聚集目标本身也算很难检测的情况吧。

  • 可以看到损失函数包括5个部分。第一部分是x,y座标;第二部分是w,h,采用根号使得小方框size变化的损失比大方框size变化的损失大,因为小目标对于预测wh的误差更敏感;第三部分是方框置信度损失,回归目标是预测方框与实际方框的IOU值;前三部分都只在预测方框和实际方框有对应关系时才计算loss
  • 第四部分是没有对应物体的方框置信度损失,实际的置信度都是0;
  • 第五部分是分类损失,当方格与物体有对应关系时,才计算分类损失。

因为在图片中很多方格都不包含物体,使得方格预测方框的置信分数趋于0。所以对包含物体的方格加大权重,对不包含物体的方格减小权重。论文中有\large \lambda _coord = 5\large \lambda_{noobj} = 5

 

待续。。。

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章