OverFeat Integrated Recognition, Localization and Detection using Convolutional Networks

原創

2020-02-21 22:31

1. 分類

注意： 訓練過程中輸出是沒有空間性的（輸出特徵圖1× 1），但是預測過程中是有空間性的。在空間性上全連接層可以看作1× 1卷積層。

操作流程的1維展示

對於一個固定尺度的圖像的水平翻轉也做同樣的操作。再對多個尺度的圖像（本文一共有6個）進行操作，最終分類結果爲：分別取一個類別中尺度和翻轉結果中最大值（平均值）作爲該類別的預測分數。

卷積網絡具有內在的移動窗口模式
訓練時保持全連接層不變，而在測試時將網絡全連接層轉化爲1× 1的卷積層得到一個全卷積網絡，如果輸入更大的圖片，就可以將輸出1× 1的點擴展爲一張類別預測圖，該圖中每一個點對應於輸入的一個窗口。因爲在測試時所有的層都是卷積層，那麼網絡就只有一系列的卷積、池化和閾值操作了。

移動窗口

將訓練好的分類網絡最後3層分類器替代爲一個迴歸網絡，訓練它來預測物體每個位置和尺度的邊界框，然後結合每個位置的迴歸結果和分類結果。

生成物體邊界框的預測
在所有位置和尺度上同時訓練共享卷積層的分類器和迴歸器（在訓練好卷積層和分類器之後，只需要重新計算迴歸器）。每個位置上對某個類別的分類概率都是這個類別的物體在該位置上出現（不是完全包含）的置信分數。我們可以把每個邊界邊框都賦予一個置信分數。迴歸網絡使用預測與實際邊界的L2 損失，迴歸輸出是與類別有關的（有1000個版本，對每個類別都有一個迴歸結果）。
迴歸訓練
迴歸網絡的輸入是第五層池化後的特徵圖，前兩層爲4096和1024個神經元，輸出有4個神經元確定邊界框的邊界座標。假設對於9個偏移情況中任意一個第五層池化後的特徵圖爲256個6× 7，第一層輸入大小爲5× 5，卷積得到第一層4096個2× 3，第二層則是全連接的，結果爲1024個2× 3，輸出爲4個2× 3。

迴歸網絡

與定位不同的是在沒有物體的使用需要預測一個背景類別，傳統做法中負樣本是隨機選取的，而我們則是選取每張圖片有意思的負樣本。

發佈了57 篇原創文章 · 獲贊 41 · 訪問量 16萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.