1. 不精準的輸出邊界框問題

在滑動窗口法中，取這些離散的位置集合，然後在它們上運行分類器
在這種情況下，這些邊界框沒有一個能完美匹配汽車位置，也許這個框（編號1）是最匹配的了
還有看起來這個真實值，最完美的邊界框甚至不是方形
稍微有點長方形（紅色方框所示），長寬比有點向水平方向延伸

滑動窗口法卷積實現的算法效率更高，但仍然存在問題，不能輸出最精準的邊界框

2. YOLO算法

其中一個能得到更精準邊界框的算法是YOLO算法
YOLO(You only look once)意思是你只看一次

比如輸入圖像是100×100的，然後在圖像上放一個網格
爲了介紹起來簡單一些，用3×3網格，實際實現時會用更精細的網格，可能是19×19
基本思路是使用圖像分類和定位算法，然後將算法應用到9個格子上

更具體一點，需要這樣定義訓練標籤，所以對於9個格子中的每一個指定一個標籤y
y是8維的，和之前的一樣，p_c等於0或1取決於這個綠色格子中是否有圖像
然後b_x、b_y、b_h和b_w作用就是，如果那個格子裏有對象，那麼就給出邊界框座標
然後c₁、c₂和c₃就是想要識別的三個類別，背景類別不算

這張圖裏有9個格子，所以對於每個格子都有這麼一個向量
（編號4）（編號6）這張圖有兩個對象
YOLO算法做的就是，取兩個對象各自的中點，然後將這個對象分配給包含對象中點的格子
所以左邊的汽車就分配到（編號4）格子上
然後這輛Condor（車型：神鷹）中點在（編號6）格子，分配給（編號6）格子
即使中心格子（編號5）同時有兩輛車的一部分，就假裝中心格子沒有任何感興趣的對象

對於這裏9個格子中任何一個，都會得到一個8維輸出向量
因爲這裏是3×3的網格，所以總的輸出尺寸是3×3×8

如果現在要訓練一個輸入爲100×100×3的神經網絡

現在這是輸入圖像，然後有一個普通的卷積網絡，卷積層，最大池化層等等
最後會有選擇卷積層和最大池化層
這樣最後就映射到一個3×3×8輸出尺寸即目標標籤y

在YOLO算法中

對於這個方框（編號6所示），約定左上這個點是(0,0)，然後右下這個點是(1,1)
要指定橙色中點的位置，b_x大概是0.4，因爲它的位置大概是水平長度的0.4，然後b_y大概是0.3
然後邊界框的高度用格子總體寬度的比例表示
所以這個紅框的寬度可能是藍線（編號2所示的藍線）的90%，所以b_h是0.9
它的高度也許是格子總體高度的一半，這樣的話b_w就是0.5
換句話說，b_x、b_y、b_h和b_w單位是相對於格子尺寸的比例
所以b_x和b_y必須在0和1之間
然後就開始訓練吧

參考：

《神經網絡和深度學習》視頻課程

深度學習筆記（36）邊界框預測

深度學習筆記（36）邊界框預測

1. 不精準的輸出邊界框問題

2. YOLO算法

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

Python依賴文件requirements.txt的生成和安裝

樹莓派Raspberry Pi OS開機自啓動腳本

標準霍夫變換

Git筆記（29）搜索

Git筆記（32）高級合併

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

深度學習筆記（36） 邊界框預測

深度學習筆記（36） 邊界框預測

1. 不精準的輸出邊界框問題

2. YOLO算法

深度學習筆記（36）邊界框預測

深度學習筆記（36）邊界框預測