02 YOLO系列总结

参考：

1. YOLO v1

网络框架：

1.1 其中，输入图像大小是448*448*3，输出大小是7*7*30，如上图，最后输出的一个像素值对应原图中的一个网格，即相当于将原图分割成7*7的网格：

最后输出的每个像素值都是一个30维的向量，每个像素对应原图中的一个网格，30等于2×5+20，即2个bbox值(bbox值包括座标和宽高)，同时为每个bbox值预测一个置信度(confidence scores)。20表示某个类的中心落在当前单元格内的概率。
即前面10个值用来确定目标的位置（定位），后面20个值用来确定目标的类别（分类）。
输出结果中的一个像素，只能有一个类别，即要么是狗，要么是自行车，所以对应到原图中的网格，每个网格负责预测一种物体；为何用两个bbox，为了更准确的定位出物体。

1.2 分类功能简单，即20个0到1的值，哪个位置上的值大即属于哪个类，难点是定位功能：

因为定位和分类一样也视为回归任务，所以需要将座标数据值归一化为0到1之间，假设输出结果的其中一个像素值为，对应到原图即为上图的蓝色网格的检测结果，该目标的bbox是红色框。

1.2.1 (x, y)

(x, y)是红色bbox的中心（原图绿色点）相对于网格（当前网格是蓝色）的左边界和上边界偏移距离，由两个座标决定，分别是单元格左上角座标、bbox中心在原图像的座标位置。对于上图蓝色网格座标为 $(x_{col} = 1, y_{row} = 4)$ ，假设它输出的是红色框bbox，设bbox的中心座标，那么最终预测的结果是经过归一化处理的，表示的是绿色中心相对于蓝色网格的偏移，计算公式如下：

因为bbox中心相对於单元格的偏移量，即绿色点如果正好在蓝色单元格最左上角，则偏移量为0，如果正好在最右下角，则相对于左边界和上边界偏移量都为1，公式如下

$\large x = \frac{x_c - w_i}{w_c}$

$\large y = \frac{y_c - h_i}{h_c}$

其中，(w_i，h_i) 是单元格左上角座标，w_c, h_c是每个单元格的宽、高，(x_c, y_c) 是原图像的座标位置，x就是相对於单元格的左边界偏移的距离。所以x, y区间都是[0, 1]。

同理，y值一样，这样就实现了原图中所有的座标值都是0到1。

每个网络只有有一个类别，类别的中心只能在网格内移动。

1.2.2 (w,h)

(w,h)是红色bbox相对于整个图片的比例。预测的bbox的真实宽高为w_b, h_b，如上图所示。(w_i,h_i)表示的是原图宽、高，计算公式如下:

$w = \frac{w_b}{w_i}$

$h = \frac{h_b}{h_i}$

其中w_i值为448，假设w_b值为160，则w = 160 / 448 = 0.3571.

1.2.3 confidence

这个置信度是由两部分组成，一是格子内是否有目标(有为1，无为0)，二是bbox的准确度（IoU，设置IoU是为了定位更准）。即如果有目标，置信度为IoU，否则置信度为0。用来评估目标位置是否准确，而不管具体类别。

一个网格，有两个bbox，所以就有两个confidence

1.2.4 C类的条件概率

20个条件概率定义为 $\large p_r = (Class_i|Object)$ ，表示该网格存在目标且属于第i类的概率。

测试的时候，将最终的输出是置信度乘以这20个条件概率值，得出一组20个概率值，因为有两组bbox，这样bbox1和bbox2的confidence分别乘以这20个条件概率值，就有两组概率值。送入NMS，得到最终的输出框结果。

1.3 损失函数

首先要明确两个概念，一是网格中有无目标，二是网格中的一个目标只有一个box负责（responsible）另一个box也算没有目标，根据在线计算IOU的大小确定哪一个负责。

其中， $\sum_{i=1}^{S^2}$ 是在遍历网格， $\sum_{j=1}^{B}$ 是在遍历每个网格的bbox， $\large 1_{ij}^{obj}$ 表示选取个bbox中框出ground truth的那几个bbox。剩下的未被选择的，就给了 $\large 1_{ij}^{noobj}$ . λ是用来调节类别不平衡的超参数。

confidence损失：负责检测的box的label是在线计算的IOU，不负责和无目标的都为0，为了平衡，加入λnoobj

位置损失：容易理解，负责检测的才有位置损失，其他的都不需回传损失，也就不需要计算，此外小目标对于预测wh的误差更敏感，用开根的方法缓解。举例来说，大小为10和大小为100的目标，预测大小分别为20和110，损失一样但是显然小目标检测的更差一些，开根后， $\large (\sqrt{20}-\sqrt{10})^2=1.7$ ，而 $\large (\sqrt{110}-\sqrt{010})^2=0.24$ ，相当于强化了小目标的损失。

类别损失：容易理解，含有目标的网格才有类别损失，其他都不需要回传损失，也就不需要计算。默认网格只出现一种类别，这当然是有缺陷的。yolov1对于一些聚集的目标，检测效果会不好。其实聚集目标本身也算很难检测的情况吧。

可以看到损失函数包括5个部分。第一部分是x,y座标；第二部分是w,h，采用根号使得小方框size变化的损失比大方框size变化的损失大，因为小目标对于预测wh的误差更敏感；第三部分是方框置信度损失，回归目标是预测方框与实际方框的IOU值；前三部分都只在预测方框和实际方框有对应关系时才计算loss；
第四部分是没有对应物体的方框置信度损失，实际的置信度都是0；
第五部分是分类损失，当方格与物体有对应关系时，才计算分类损失。

因为在图片中很多方格都不包含物体，使得方格预测方框的置信分数趋于0。所以对包含物体的方格加大权重，对不包含物体的方格减小权重。论文中有 $\large \lambda _coord = 5$ ， $\large \lambda_{noobj} = 5$

待续。。。

02 YOLO系列总结

1. YOLO v1

AttributeError: ‘COCO‘ object has no attribute ‘get_cat_ids‘

C++ 01常量指針和指針常量、數組指針和指針數組、引用和指針，結構體數組和結構體指針，常量引用

C++ 02內存4區

C++ 04 函數重載，函數重寫，函數重定義

C++ 03指針和引用-值交換方法對比

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結