[YOLO]《YOLOv3: An Incremental Improvement》筆記

原創

2019-10-25 15:23

相比較於前兩篇論文，個人感覺YOLO3作者有點來搞笑的！！！雖然加了一些新的點子進來，但是，論文的開頭是這樣的：

簡單理解就是作者花了很多時間玩Twitter去了，所以沒有做啥研究！！！！

然後：

你可以引用自己的論文嗎？猜猜誰會這麼做，就是這傢伙，然後我發現鏈接竟然是他自己這篇論文：

還有調侃下谷歌、臉書等大公司和目標檢測等技術：

很多從事這項研究的在谷歌和臉書，所以我們應該相信他們不會用技術來採集我們的信息然後拿來賣！！！等等，你是說這纔是技術的真正用途？？？？哈哈，投資計算機視覺研究的都是軍方的人，他們從未將新技術用來殺人！！！

接着作者說：

希望搞計算視覺的人是出於興趣做一件快樂的事情，比如數數公園裏斑馬的數量，跟蹤下房子周圍的貓！！！！

重要的是接下來的一句，他說：

不要艾特我，我終於退出推特了！！！

好咯，言歸正傳，那麼其實這篇論文相比較前兩篇，倒是沒啥其他特別的點，總結起來主要也就是新的骨架和多尺度。

一、Bounding Box Prediction

目標邊界框的預測實際上也還是沿用YOLO2的做法，網絡會預測每個網格中目標邊界框的四個座標tx、ty、tw、th，如果每個網格相對於整體圖像的左上角的偏移量爲(Cx,Cy)，而先驗邊界框的寬度和高度爲pw、ph，那麼由預測值到座標的映射如下：

訓練的時候則是取所有損失的平方和。

YOLO3採用邏輯迴歸來預測每個邊界框的包含目標的分數objectness score，如果邊界框與ground truth object的重疊大於其它邊界框，那麼其分數爲1，如果邊界框不是最好的，但是與ground truth object的重疊大於一定閾值，那麼就忽略該預測。系統只爲每個ground truth object分配一個邊界框，沒有分配的邊界框就不會對座標或者類別的預測造成損失？

二、Class Prediction

類別預測，YOLO3不適用softmax，因爲發現沒啥特別影響，所以用獨立的邏輯分類器。訓練的時候用了二元交叉熵損失函數。

三、Predictions Across Scales

多尺度預測，YOLO3使用了三個尺度，借鑑了FPN，使用多尺度。最後一個卷積提取了一個三維的編碼了邊界框、目標分數和類別預測等信息的張量，以COCO數據集爲例子，每個尺度都會預測三個邊界盒子，那麼每個尺度的張量大小爲：

其中4爲4個邊界框偏移量，1個目標檢測分數，80個類別的概率。三個尺度之間的大小關係是彼此2倍的遞進的關係。通過上採樣將小尺度特徵圖與大尺度特徵圖拼接，然後又新加一些卷積層對融合後的特徵做了處理。

YOLO3同樣使用K均值聚類來計算先驗框，對三個尺度計算了9個類，分別爲：

四、Feature Extractor

特徵提取部分，YOLO3設計了新的骨架，Darknet53，因爲用了53個卷積層：

新骨架與Darknet19和其它網絡的性能對比如下：

Darknet53的表現還是比較好的。

四、Training

跟YOLO2的做法基本上是類似的。

五、Things We Tried That Didn’t Work

作者做了一些新的嘗試，但是沒有作用：

1、Anchor box x, y offset predictions：嘗試用常規的先驗框機制，也就是用線性激活函數預測x、y爲邊界框寬度和高度的倍數，但是沒用。

2、Linear x, y predictions instead of logistic：用線性激活函數直接預測x、y偏移量，而不是用邏輯迴歸，沒用。

3、Focal loss：嘗試用Focal loss，但是沒用，可能YOLO3對於Focal loss要解決的問題來說已經很溜了，不需要Focal loss了吧，這點作者做了一些測試，但是也說不準。

4、Dual IOU thresholds and truth assignment：嘗試採用Faster RCNN採用的雙閾值策略，但是沒用。

六、YOLO3 表現：

在COCO上與其它算法的對比，不如RetinaNet，但是基本上也還是比SSD好一些(相愛相殺？)

論文：https://arxiv.org/pdf/1804.02767.pdf

支離東北風塵際，漂泊西南天地間。

三峽樓臺淹日月，五溪衣服共雲山。

羯胡事主終無賴，詞客哀時且未還。

庾信平生最蕭瑟，暮年詩賦動江關。

-- 杜甫《詠懷古蹟五首其一》

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

淺析CNN卷積神經網絡feature map

個人學習CNN的一些筆記，比較基礎，整合了其他博客的內容 feature map的理解在cnn的每個卷積層，數據都是以三維形式存在的。你可以把它看成許多個二維圖片疊在一起（像豆腐皮豎直的貼成豆腐塊一樣），其中每一個稱爲一個

2020-07-07 11:11:21

論文筆記之Fully Convolutional Networks for Semantic Segmentation

最近了解到了Image Semantic Segmentation方面的知識，在此做一個記錄。這篇論文是2015cvpr的best paper，可以說是在cnn上做圖像語義分割的開山之作。 1.語義分割定義：語義就是指物體的

2020-07-08 10:23:34

2018.8.8 kaggle 圖像分類項目

1.今天接到一個電話面試，上來就問我怎麼檢查單鏈表有環。思路：如果一個單鏈表中有環，用一個指針去遍歷，永遠不會結束，所以可以用兩個指針，一個指針一次走一步，另一個指針一次走兩步，如果存在環，則這兩個指針會在環內相遇，時間

2020-07-08 05:52:34

MNIST數據集手寫數字識別

pytorch的MNIST數據集手寫數字識別(GPU) 數據集介紹 MNIST 包括6萬張28x28的訓練樣本，1萬張測試樣本，很多教程都會對它”下手”幾乎成爲一個 “典範”，可以說它就是計算機視覺裏面的Hello World。所

2020-07-08 05:29:48

基於時空圖卷積模型的分析歸納

名稱 ST-GCN 目的解決基於人體骨架關鍵點的人類動作識別問題優點 1、空間關係利用人類關節空間關係理解人類行爲2、層次性ST-GCN 的層次性消除了手動劃分部分或遍歷規則的需要。這不僅能獲得更強的表達能力

2020-07-07 11:11:22

圖卷積-動作識別-姿態預測三篇論文歸納

名稱 Actional-Structural Graph Convolutional Networks forSkeleton-based Action Recognition Convolutional Neural Ne

2020-07-07 11:11:21

TensorFlow學習筆記（二）深層神經網絡與優化算法

三、深度學習與深層神經網絡 1、介紹深度學習特性：多層和非線性線性模型侷限性：只通過線性變換，任意層的全連接神經網絡和單層神經網絡模型的表達能力沒有任何區別。線性模型能夠解決的問題是有限的——這是它的

2020-07-07 11:11:19

【論文筆記】Convolutional Neural Networks for Sentence Classification

paper鏈接 https://arxiv.org/abs/1408.5882 閱讀這篇paper的一些筆記： Abstract 本文將CNN和NLP結合；介紹了一系列的對比實驗，實驗結果說明了：一個簡單的（單層神經網絡

2020-07-06 18:40:30

圖像風格遷移——《A Neural Algorithm of Artistic Style》

之前看到別人玩圖像風格遷移，感覺挺有意思的，趁着空下來的時間自己玩了一下。還是沿着老方法，先看一下論文，然後跑跑程序。論文看的是最基礎的《A Neural Algorithm of Artistic Style》，程序嘛，當然不是笨妞自己

2020-07-05 15:00:45

基於全卷積的圖像語義分割—《Fully Convolutional Networks for Semantic Segmentation》

兩年前，我曾想做一個自動摳“人”的系統，目標是去除路人甲或者自動合成照片。當時“井底之蛙”般搞了一個混合高斯模型，通過像素聚類的方式來摳“人”。這個模型，每跑一張小圖片需要幾分鐘，摳出來的前景“噪音”很嚴重，完全沒辦法使用。最後這個通過“

2020-07-05 15:00:45

Deep dream——《Going Deeper into Neural Networks》

deep dream的體驗和以往看論文，跑例子的過程完全不同。這是在跑“風格遷移”的例子時，在keras的examples中無意看到了程序，然後順帶跑一跑的。跑出來的效果讓我覺得和無厘頭，於是讀程序，看它到底幹了些啥。程序風格也很特別，沒

2020-07-05 15:00:45

卷積神經網絡-BN、Dropout、leaky_relu (tensorflow)

神經網絡是一種比較難以理解的結構，關於神經網絡的各種層次的說明解釋，大家請移步百度、google 本次的分享會從人類視覺角度、生物角度談一談神經網絡中的一些優化算法。首先，計算機領域設計出來的算法、模型和數據結構，都可以理解爲一種建

罗小丰同学

2020-07-04 03:54:05

ImageDataGenerator生成器的flow，flow_from_directory用法總結，及自己踩的坑【原創】

踩坑：一直都不知其問題出在哪，如報錯： ValueError: Error when checking target: expected sequential_1 to have shape (2,) but got array wit

2020-07-04 02:49:22

tensorflow & keras

文章目錄Mnist模型定義keras層優化算法及損失函數文字識別模型檢驗CNNFilterpoolingexampleimportload data設定神經網絡設定優化方法及損失函數訓練RNNLSTM影評分析importload預

2020-07-03 18:57:10

卷積神經網絡 Tensorflow

import tensorflow as tf #通過tf.get_variable的方式創建過濾器的權重變量和偏置項變量 filter_weight = tf.get_variable('weights',[5,3,3,16]

2020-07-03 12:03:23

24小時熱門文章

最新文章

最新評論文章