用Python快速實現YOLO目標檢測

想獲取本文完整代碼和數據的下載鏈接，可關注微信公衆號"R語言和Python學堂"，並回復發文日期"20181223"。

1. 什麼是目標檢測？

啥是目標檢測？

拿上圖 (用YOLOv3檢測) 來說，目標檢測 (Object Detection) 就是將圖片中的物體用一個個矩形框框出來，並且識別出每個框中的物體是啥，而且最好的話是能夠將圖片的所有物體都框出來。

再來看下YOLOv3在視頻上的效果：

總之，目標檢測本質上包含兩個任務：物體識別和物體定位。

2. 目標檢測技術的概述

目前，基於深度學習(deep learning)的目標檢測技術效果是最好的，這些技術模型可以分成三類：

R-CNN系列，包括R-CNN，Fast R-CNN，以及Faster R-CNN
Single Shot Detector (SSD)
You Only Look Once (YOLO)系列，其中YOLOv3是今天的主角

下面來簡單說一下這些模型，SSD這裏就不介紹了，感興趣的話可自行去了解。

R-CNN系列

上圖是Faster R-CNN模型的原理簡圖，技術細節可參考下面所提及的相關文章。

R-CNN系列的演化路徑爲：R-CNN → Fast R-CNN → Faster R-CNN

R-CNN 是第一個基於深度學習的目標檢測模型，它屬於two-stage方法，即將物體識別和物體定位分爲兩個步驟，分別完成。詳情見Girshick等人的第一篇相關文章：https://arxiv.org/abs/1311.2524，其原理大概爲：(1) 預先找出圖中物體可能出現的位置，即候選區域 (Region Proposal) 。利用圖像中的紋理、邊緣、顏色等信息，可以保證在選取較少窗口 (幾千甚至幾百) 的情況下保持較高的召回率 (Recall) 。(2) 然後將這些候選框送入CNN網絡中進行識別分類。

R-CNN 方法的缺點是它太慢了；由於它採用外部的候選框算法，它也不是一個完整的端到端 (end-to-end) 檢測器。

Girshick等人於2015年發表了第二篇論文 Fast R-CNN，鏈接爲：https://arxiv.org/abs/1504.08083。相對R-CNN，Fast R-CNN算法有了很大改進，即提高了精確度，並減少了執行前向網絡計算所需的時間；然而，該模型仍然依賴於外部的候選框算法。

直到2015年的後續模型 Faster R-CNN 的出現，鏈接爲：https://arxiv.org/abs/1506.01497。通過使用區域生成網絡 (Region Proposal Network, RPN)來取代候選框算法，Faster R-CNN 最終成爲真正的端到端目標檢測器。

雖然R-CNN系列的精確度不斷提高，但是R-CNN系列最大的問題是它的速度，即使使用GPU也只能達到5 FPS.

YOLO系列

上圖是YOLO模型的原理簡圖，技術細節可參考下面所提及的相關文章，YOLO官網爲：https://pjreddie.com/darknet/yolo/。

爲了提高基於深度學習的目標檢測器的速度，SSD和YOLO都使用了one-stage策略。

這些算法將目標檢測作爲一個迴歸問題，對於給定的輸入圖像，同時給出邊界框位置以及相應的類別。

一般來說，one-stage策略比two-stage策略的精度低，但速度快得多。

YOLO是one-stage檢測器的一個很好的例子。

Redmon等人於2015年首次引入了YOLO，論文鏈接爲：https://arxiv.org/abs/1506.02640，詳細介紹了一個具有超實時目標檢測能力的檢測器，在GPU上獲得了45 FPS。

YOLO已經經歷了許多不同版本的迭代，包括YOLO9000模型，通過聯合訓練，它能夠檢測9000種不同類別的目標。雖然YOLO9000的表現有趣且新穎，但在COCO的156類數據集上，只達到了16%的平均精度(mAP)。雖然YOLO9000可以檢測9000種類別，但是它的精度不是很理想。

最近，Redmon和Farhadi發表了一篇新的YOLO論文——YOLOv3: a Incremental Improvement(2018)，鏈接爲：https://arxiv.org/abs/1804.02767。YOLOv3比之前的模型更大了，但在我看來，它是YOLO目標檢測器系列中最好的一個。

相比之前的算法，尤其針對小目標情況，YOLOv3的精度有顯著提升。

3. 基於OpenCV的快速實現

我們將在這篇博客使用在COCO數據集上預訓練好的YOLOv3模型。

COCO 數據集包含80類，有people (人)，bicycle(自行車)，car(汽車)......，詳細類別可查看鏈接：https://github.com/pjreddie/darknet/blob/master/data/coco.names。

下面利用OpenCV來快速實現YOLO目標檢測，我將其封裝成一個叫yolo_detect()的函數，其使用說明可參考函數內部的註釋。網絡的模型和權重都已上傳至百度網盤。

# -*- coding: utf-8 -*-
# 載入所需庫
import cv2
import numpy as np
import os
import time

def yolo_detect(pathIn='',
                pathOut=None,
                label_path='./cfg/coco.names',
                config_path='./cfg/yolov3_coco.cfg',
                weights_path='./cfg/yolov3_coco.weights',
                confidence_thre=0.5,
                nms_thre=0.3,
                jpg_quality=80):

    '''
    pathIn：原始圖片的路徑
    pathOut：結果圖片的路徑
    label_path：類別標籤文件的路徑
    config_path：模型配置文件的路徑
    weights_path：模型權重文件的路徑
    confidence_thre：0-1，置信度（概率/打分）閾值，即保留概率大於這個值的邊界框，默認爲0.5
    nms_thre：非極大值抑制的閾值，默認爲0.3
    jpg_quality：設定輸出圖片的質量，範圍爲0到100，默認爲80，越大質量越好
    '''

    # 加載類別標籤文件
    LABELS = open(label_path).read().strip().split("\n")
    nclass = len(LABELS)
    
    # 爲每個類別的邊界框隨機匹配相應顏色
    np.random.seed(42)
    COLORS = np.random.randint(0, 255, size=(nclass, 3), dtype='uint8')
    
    # 載入圖片並獲取其維度
    base_path = os.path.basename(pathIn)
    img = cv2.imread(pathIn)
    (H, W) = img.shape[:2]
    
    # 加載模型配置和權重文件
    print('從硬盤加載YOLO......')
    net = cv2.dnn.readNetFromDarknet(config_path, weights_path)
    
    # 獲取YOLO輸出層的名字
    ln = net.getLayerNames()
    ln = [ln[i[0] - 1] for i in net.getUnconnectedOutLayers()]
    
    # 將圖片構建成一個blob，設置圖片尺寸，然後執行一次
    # YOLO前饋網絡計算，最終獲取邊界框和相應概率
    blob = cv2.dnn.blobFromImage(img, 1 / 255.0, (416, 416), swapRB=True, crop=False)
    net.setInput(blob)
    start = time.time()
    layerOutputs = net.forward(ln)
    end = time.time()
    
    # 顯示預測所花費時間
    print('YOLO模型花費 {:.2f} 秒來預測一張圖片'.format(end - start))
    
    # 初始化邊界框，置信度（概率）以及類別
    boxes = []
    confidences = []
    classIDs = []
    
    # 迭代每個輸出層，總共三個
    for output in layerOutputs:
        # 迭代每個檢測
        for detection in output:
            # 提取類別ID和置信度
            scores = detection[5:]
            classID = np.argmax(scores)
            confidence = scores[classID]
    
            # 只保留置信度大於某值的邊界框
            if confidence > confidence_thre:
                # 將邊界框的座標還原至與原圖片相匹配，記住YOLO返回的是
                # 邊界框的中心座標以及邊界框的寬度和高度
                box = detection[0:4] * np.array([W, H, W, H])
                (centerX, centerY, width, height) = box.astype("int")
    
                
                # 計算邊界框的左上角位置
                x = int(centerX - (width / 2))
                y = int(centerY - (height / 2))
    
                # 更新邊界框，置信度（概率）以及類別
                boxes.append([x, y, int(width), int(height)])
                confidences.append(float(confidence))
                classIDs.append(classID)
    
    # 使用非極大值抑制方法抑制弱、重疊邊界框
    idxs = cv2.dnn.NMSBoxes(boxes, confidences, confidence_thre, nms_thre)
    
    # 確保至少一個邊界框
    if len(idxs) > 0:
        # 迭代每個邊界框
        for i in idxs.flatten():
            # 提取邊界框的座標
            (x, y) = (boxes[i][0], boxes[i][1])
            (w, h) = (boxes[i][2], boxes[i][3])
            
            # 繪製邊界框以及在左上角添加類別標籤和置信度
            color = [int(c) for c in COLORS[classIDs[i]]]
            cv2.rectangle(img, (x, y), (x + w, y + h), color, 2)
            text = '{}: {:.3f}'.format(LABELS[classIDs[i]], confidences[i])
            (text_w, text_h), baseline = cv2.getTextSize(text, cv2.FONT_HERSHEY_SIMPLEX, 0.5, 2)
            cv2.rectangle(img, (x, y-text_h-baseline), (x + text_w, y), color, -1)
            cv2.putText(img, text, (x, y-5), cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 0, 0), 2)
    
    # 輸出結果圖片
    if pathOut is None:
        cv2.imwrite('with_box_'+base_path, img, [int(cv2.IMWRITE_JPEG_QUALITY), jpg_quality])
    else:
        cv2.imwrite(pathOut, img, [int(cv2.IMWRITE_JPEG_QUALITY), jpg_quality])

來測試一下：

pathIn = './test_imgs/test1.jpg'
pathOut = './result_imgs/test1.jpg'
yolo_detect(pathIn,pathOut)
>>> 從硬盤加載YOLO......
>>> YOLO模型花費 3.63 秒來預測一張圖片

pathIn = './test_imgs/test2.jpg'
pathOut = './result_imgs/test2.jpg'
yolo_detect(pathIn,pathOut)
>>> 從硬盤加載YOLO......
>>> YOLO模型花費 3.55 秒來預測一張圖片

pathIn = './test_imgs/test3.jpg'
pathOut = './result_imgs/test3.jpg'
yolo_detect(pathIn,pathOut)
>>> 從硬盤加載YOLO......
>>> YOLO模型花費 3.75 秒來預測一張圖片

結果爲：

從運行結果可知，在CPU上，檢測一張圖片所花的時間大概也就3到4秒。如果使用GPU，完全可以實時對視頻/攝像頭進行目標檢測。

結合之前的博客用Python提取視頻中的圖片，可將YOLOv3應用於視頻流。

YOLOv3最大的侷限性和缺點就是：對於小物體，有時檢測效果不佳；尤其不善於處理靠得很近的物體。

這些缺點都是由YOLO自身的算法所導致的：首先YOLO將輸入圖像劃分爲一個SxS的網格，網格中的每個單元格只預測一個對象。如果在一個單元格中存在多個小對象，那麼YOLO將無法檢測它們，最終導致檢測對象的丟失。

因此，如果你知道你的數據集包含許多小物體，而且這些小物體也靠得很近，那麼你不應該使用YOLO目標檢測器。在小物體方面，Faster R-CNN效果是最好，儘管它的速度是最慢的。

以上就是本文的全部內容，希望對大家的學習有所幫助。如果覺得文章不錯，動手轉發支持一下哦！

感謝您的閱讀！想了解更多有關技巧，請關注我的微信公衆號“R語言和Python學堂”，我將定期更新相關文章。同時也歡迎大家積極投稿，促進交流。

用Python快速實現YOLO目標檢測

1. 什麼是目標檢測？

2. 目標檢測技術的概述

R-CNN系列

YOLO系列

3. 基於OpenCV的快速實現

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

Python初級教程(11): for循環語句

Python初級教程(10): if...else 語句

R統計學(07): 常見數學函數

R統計學(09): 正態分佈 (二)

R統計學(08): 正態分佈 (一)

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結