YOLOV1 V2 V3 SSD 筆記

YOLOV1

https://blog.csdn.net/hrsstudy/article/details/70305791
在這裏插入圖片描述

  • 檢測網絡包括24個卷積層和2個全連接層

優點:

  • 1、YOLO檢測物體非常快。
    因爲沒有複雜的檢測流程,只需要將圖像輸入到神經網絡就可以得到檢測結果,YOLO可以非常快的完成物體檢測任務。標準版本的YOLO在Titan X 的 GPU 上能達到45 FPS。更快的Fast YOLO檢測速度可以達到155 FPS。而且,YOLO的mAP是之前其他實時物體檢測系統的兩倍以上。

  • 2、YOLO可以很好的避免背景錯誤,產生false positives。
    不像其他物體檢測系統使用了滑窗或region proposal,分類器只能得到圖像的局部信息。YOLO在訓練和測試時都能夠看到一整張圖像的信息,因此YOLO在檢測物體時能很好的利用上下文信息,從而不容易在背景上預測出錯誤的物體信息。和Fast-R-CNN相比,YOLO的背景錯誤不到Fast-R-CNN的一半。

  • 3、YOLO可以學到物體的泛化特徵。
    當YOLO在自然圖像上做訓練,在藝術作品上做測試時,YOLO表現的性能比DPM、R-CNN等之前的物體檢測系統要好很多。因爲YOLO可以學習到高度泛化的特徵,從而遷移到其他領域。

缺點:

  • 1、YOLO的物體檢測精度低於其他state-of-the-art的物體檢測系統。
  • 2、YOLO容易產生物體的定位錯誤。
  • 3、YOLO對小物體的檢測效果不好(尤其是密集的小物體,因爲一個柵格只能預測2個物體)。
    在這裏插入圖片描述

更重視8維的座標預測,給這些損失前面賦予更大的loss weight, 記爲 λcoord ,在pascal VOC訓練中取5。(上圖藍色框)
對沒有object的bbox的confidence loss,賦予小的loss weight,記爲 λnoobj ,在pascal VOC訓練中取0.5。(上圖橙色框)
有object的bbox的confidence loss (上圖紅色框) 和類別的loss (上圖紫色框)的loss weight正常取1。

對不同大小的bbox預測中,相比於大bbox預測偏一點,小box預測偏相同的尺寸對IOU的影響更大。而sum-square error loss中對同樣的偏移loss是一樣。
爲了緩和這個問題,作者用了一個巧妙的辦法,就是將box的width和height取平方根代替原本的height和width。 如下圖:small bbox的橫軸值較小,發生偏移時,反應到y軸上的loss(下圖綠色)比big box(下圖紅色)要大。

YOLOV2

https://blog.csdn.net/wfei101/article/details/79398563

  • BN(V1,V2 都用了BN)
  • High Resolution Classifier
    目前的目標檢測方法中,基本上都會使用ImageNet預訓練過的模型(classifier)來提取特徵,如果用的是AlexNet網絡,那麼輸入圖片會被resize到不足256 * 256,導致分辨率不夠高,給檢測帶來困難。爲此,新的YOLO網絡把分辨率直接提升到了448 * 448,這也意味之原有的網絡模型必須進行某種調整以適應新的分辨率輸入。
    對於YOLOv2,作者首先對分類網絡(自定義的darknet)進行了fine tune,分辨率改成448 * 448,在ImageNet數據集上訓練10輪(10 epochs),訓練後的網絡就可以適應高分辨率的輸入了。然後,作者對檢測網絡部分(也就是後半部分)也進行fine tune。這樣通過提升輸入的分辨率,mAP獲得了4%的提升。
  • Convolutional With Anchor Boxes
  • Dimension Clusters(維度聚類)(K均值聚類)
  • Direct location prediction(直接位置預測)
  • Fine-Grained Features(細粒度特徵)
  • Multi-Scale Training

YOLOV3

https://blog.csdn.net/u014380165/article/details/80202337

SSD

https://blog.csdn.net/WZZ18191171661/article/details/79444217
數據增強
(1) 隨機剪裁:採樣一個片段,使剪裁部分與目標重疊分別爲0.1, 0.3, 0.5, 0.7, 0.9,剪裁完resize到固定尺寸。

(2) 以0.5的概率隨機水平翻轉。

將正負樣本的比例控制在positive:negative=1:3

優點:運行速度超過YOLO,精度超過Faster-rcnn(一定條件下,對於稀疏場景的大目標而言)。
缺點:需要人工設置prior box的min_size,max_size和aspect_ratio值。網絡中default box的基礎大小和形狀不能直接通過學習獲得,而是需要手工設置。而網絡中每一層feature使用的default box大小和形狀恰好都不一樣,導致調試過程非常依賴經驗。(相比之下,YOLO2使用聚類找出大部分的anchor box形狀,這個思想能直接套在SSD上)
雖然採用了pyramdial feature hierarchy的思路,但是對小目標的recall依然一般,並沒有達到碾壓Faster RCNN的級別。可能是因爲SSD使用conv4_3低級feature去檢測小目標,而低級特徵卷積層數少,存在特徵提取不充分的問題。

default box
每個feature map上的每個點產生6個類似anchor的先驗框,加速回歸。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章