YOLOv1, SSD

YOLOv1, SSD

今年四月份的時候,在一個研究院實習時學習了YOLOv1, SSD系列Object Detection框架,現在總結一下。關於R-CNN系列框架的總結在上一篇blog。

一. YOLOv1(You Only Look Once)

1.1 框架結構

yolo-1

  1. 首先將圖片調整爲448×448 大小;
  2. 運行神經網絡(其中包括選取region proposal以及target confidence和coordinate輸出);
  3. nms(Non-max Suppression, 非極大值抑制), 用於後續bounding-box的選取(選取置信度高且不重複的方框).

yolo-2

  • 系統將輸入圖片分成S×S 個grid, 物體中心所在的grid負責檢測這個物體. 每一個grid預測B個Bounding-box(邊框)和Confidence Scores(置信度). 置信度的定義爲:

Pr(Object)IOUpredtruth
  • 其中的IOU定義爲:

iou

IOU(intersectionoverunion)=
  • 每一個Bounding-box包括5個預測數值: 座標x, y, w, h與置信度confidence.

  • 每一個grid同時預測C種種類的概率Pr(Classi|Object) .

  • 最後, 我們把一個grid是C種中的一種的概率和置信度相乘, 可以得到一個grid是特定種類物體的概率:

Pr(Classi|Object)Pr(Object)IOUpredtruth=Pr(Classi)IOUpredtruth

1.2 神經網絡結構

yolo-net

1.3 缺點

YOLOv1 有兩個主要明顯的缺點:

  • 輸入圖像分割成S×S , S取7有點粗糙, 導致後續邊框迴歸不太準確;
  • 每一個grid只預測一種物體, 不能預測一個grid有多種物體的情況.

針對這些, SSD和後續YOLOv2, YOLOv3有所改進.

二. SSD(Single Shot Multibox Detector)

2.1 框架結構

ssd

SSD只需要一張輸入圖片和ground truth框就可以開始訓練. 可以把圖片分成不同的scale(如8×8 或者4×4 ), 然後選取不同的aspect ratio(縱橫比). 每一個box預測方塊offset和每種類的置信度.

2.2 神經網絡結構

ssd-net

2.2.1 YOLOv1與SSD網絡的對比

SSD相比於YOLOv1, 在基本網絡後面增加了好幾層多尺度convolutional feature layer, 用於定位面積更小的物體, mAP提高了.

三. 總結

conclusion

YOLOv1, SSD和Faster R-CNN一樣都是End-to-End網絡了.

References

[1] Joseph Redmon, Santosh Divvalay, Ross Girshick, Ali Farhadi. (2016). You Only Look Once: Unified, Real-Time Object Detection.

[2] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg. (2016). SSD: Single Shot MultiBox Detector.


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章