YOLOv1, SSD
今年四月份的時候,在一個研究院實習時學習了YOLOv1, SSD系列Object Detection框架,現在總結一下。關於R-CNN系列框架的總結在上一篇blog。
一. YOLOv1(You Only Look Once)
1.1 框架結構
- 首先將圖片調整爲 大小;
- 運行神經網絡(其中包括選取region proposal以及target confidence和coordinate輸出);
- nms(Non-max Suppression, 非極大值抑制), 用於後續bounding-box的選取(選取置信度高且不重複的方框).
- 系統將輸入圖片分成 個grid, 物體中心所在的grid負責檢測這個物體. 每一個grid預測B個Bounding-box(邊框)和Confidence Scores(置信度). 置信度的定義爲:
- 其中的IOU定義爲:
每一個Bounding-box包括5個預測數值: 座標x, y, w, h與置信度confidence.
每一個grid同時預測C種種類的概率 .
最後, 我們把一個grid是C種中的一種的概率和置信度相乘, 可以得到一個grid是特定種類物體的概率:
1.2 神經網絡結構
1.3 缺點
YOLOv1 有兩個主要明顯的缺點:
- 輸入圖像分割成 , S取7有點粗糙, 導致後續邊框迴歸不太準確;
- 每一個grid只預測一種物體, 不能預測一個grid有多種物體的情況.
針對這些, SSD和後續YOLOv2, YOLOv3有所改進.
二. SSD(Single Shot Multibox Detector)
2.1 框架結構
SSD只需要一張輸入圖片和ground truth框就可以開始訓練. 可以把圖片分成不同的scale(如 或者 ), 然後選取不同的aspect ratio(縱橫比). 每一個box預測方塊offset和每種類的置信度.
2.2 神經網絡結構
2.2.1 YOLOv1與SSD網絡的對比
SSD相比於YOLOv1, 在基本網絡後面增加了好幾層多尺度convolutional feature layer, 用於定位面積更小的物體, mAP提高了.
三. 總結
YOLOv1, SSD和Faster R-CNN一樣都是End-to-End網絡了.
References
[1] Joseph Redmon, Santosh Divvalay, Ross Girshick, Ali Farhadi. (2016). You Only Look Once: Unified, Real-Time Object Detection.
[2] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg. (2016). SSD: Single Shot MultiBox Detector.
- 我的個人主頁:http://www.techping.cn/
- 我的CSDN博客:http://blog.csdn.net/techping
- 我的簡書:http://www.jianshu.com/users/b2a36e431d5e/
- 我的GitHub:https://github.com/techping