YOLOv1, SSD

原創

2018-09-03 00:28

YOLOv1, SSD

今年四月份的時候，在一個研究院實習時學習了YOLOv1, SSD系列Object Detection框架，現在總結一下。關於R-CNN系列框架的總結在上一篇blog。

一. YOLOv1(You Only Look Once)

1.1 框架結構

首先將圖片調整爲 $448 \times 448$ 大小;
運行神經網絡(其中包括選取region proposal以及target confidence和coordinate輸出);
nms(Non-max Suppression, 非極大值抑制), 用於後續bounding-box的選取(選取置信度高且不重複的方框).

系統將輸入圖片分成 $S \times S$ 個grid, 物體中心所在的grid負責檢測這個物體. 每一個grid預測B個Bounding-box(邊框)和Confidence Scores(置信度). 置信度的定義爲:

P r (O b j e c t) * I O U_{p r e d}^{t r u t h}

其中的IOU定義爲:

I O U (i n t e r s e c t i o n o v e r u n i o n) = \frac{兩 個 矩 形 的 交 集 面 積}{兩 個 矩 形 的 並 集 面 積}

每一個Bounding-box包括5個預測數值: 座標x, y, w, h與置信度confidence.
每一個grid同時預測C種種類的概率 $P r (C l a s s_{i} | O b j e c t)$ .
最後, 我們把一個grid是C種中的一種的概率和置信度相乘, 可以得到一個grid是特定種類物體的概率:

P r (C l a s s_{i} | O b j e c t) * P r (O b j e c t) * I O U_{p r e d}^{t r u t h} = P r (C l a s s_{i}) * I O U_{p r e d}^{t r u t h}

1.2 神經網絡結構

1.3 缺點

YOLOv1 有兩個主要明顯的缺點:

輸入圖像分割成 $S \times S$ , S取7有點粗糙, 導致後續邊框迴歸不太準確;
每一個grid只預測一種物體, 不能預測一個grid有多種物體的情況.

針對這些, SSD和後續YOLOv2, YOLOv3有所改進.

二. SSD(Single Shot Multibox Detector)

2.1 框架結構

SSD只需要一張輸入圖片和ground truth框就可以開始訓練. 可以把圖片分成不同的scale(如 $8 \times 8$ 或者 $4 \times 4$ ), 然後選取不同的aspect ratio(縱橫比). 每一個box預測方塊offset和每種類的置信度.

2.2 神經網絡結構

2.2.1 YOLOv1與SSD網絡的對比

SSD相比於YOLOv1, 在基本網絡後面增加了好幾層多尺度convolutional feature layer, 用於定位面積更小的物體, mAP提高了.

三. 總結

YOLOv1, SSD和Faster R-CNN一樣都是End-to-End網絡了.

References

[1] Joseph Redmon, Santosh Divvalay, Ross Girshick, Ali Farhadi. (2016). You Only Look Once: Unified, Real-Time Object Detection.

[2] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg. (2016). SSD: Single Shot MultiBox Detector.

我的個人主頁：http://www.techping.cn/
我的CSDN博客：http://blog.csdn.net/techping
我的簡書：http://www.jianshu.com/users/b2a36e431d5e/
我的GitHub：https://github.com/techping

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

YOLOv1, SSD

YOLOv1, SSD

一. YOLOv1(You Only Look Once)

1.1 框架結構

1.2 神經網絡結構

1.3 缺點

二. SSD(Single Shot Multibox Detector)

2.1 框架結構

2.2 神經網絡結構

2.2.1 YOLOv1與SSD網絡的對比

三. 總結

References

sunxi:[1]Orange Pi Zero U-Boot啓動剖析

linux驅動：[1]LED驅動/dev/led

使用Git製作和提交patch

【福利】小米手機修改MAC地址教程

ARM 彙編指令學習:[1]ARM指令尋址方式

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結