1. 分類
- 固定輸入最短邊大小爲256(訓練使用多尺度縮放)
- 提取5個隨機剪裁和水平翻轉的231
× 231圖片 - batchSize 128
- 權重初始化均值0,標準差0.01的均勻分佈,
- momentum 0.6
- 懲罰係數1e-5
- 學習率0.05,(30, 50, 60, 70, 80) epochs分別降低0.5
- 全連接層dropout 0.5
- 不使用局部響應歸一化
- 池化操作非重疊
注意: 訓練過程中輸出是沒有空間性的(輸出特徵圖1
× 1),但是預測過程中是有空間性的。在空間性上全連接層可以看作1× 1卷積層。
操作 | 結果 |
---|---|
輸入訓練集 | (batchSize,3,231,231) |
卷積層(96,3,11,11)stride(4,4)無pad | (batchSize,96,56,56) |
最大池化(2,2) | (batchSize,96,28,28) |
卷積層(256,96,5,5)stride(1,1)無pad | (batchSize,256,24,24) |
最大池化(2,2) | (batchSize,256,12,12) |
卷積層(512,256,3,3)stride(1,1)pad(1,1) | (batchSize,512,12,12) |
卷積層(1024,512,3,3)stride(1,1)pad(1,1) | (batchSize,1024,12,12) |
卷積層(1024,1024,3,3)stride(1,1)pad(1,1) | (batchSize,1024,12,12) |
最大池化(2,2) | (batchSize,1024,6,6) |
展開 | (batchSize,1024 |
全連接層(36864,3072) | (batchSize,3072) |
全連接層(3072,4096) | (batchSize,4096) |
softmax層(4096,1000) | (batchSize,1000) |
測試全連接層權重 | 轉化的卷積層權重 |
---|---|
(50176,3072) | (3072,1024,7,7) |
(3072,4096) | (4096,3072,1,1) |
(4096,1000) | (1000,4096,1,1) |
多尺度分類
在ImageNet Classification
論文中使用的4個角落和中心的5個區域以及水平翻轉對應的區域共10個區域,採用的是單尺度,忽略了很多區域且有冗餘計算。對一個固定尺度的圖像在第五層特徵圖(例如20× 20)的增強操作如下:- 對一個固定尺度的單張圖像,從第五層的未池化20
× 20特徵圖開始 - 每一個未池化特徵圖,在水平、垂直偏置分別爲{0,1,2}的9種情況下做3
× 3的最大非重疊池化,得到9張池化後的6× 6特徵圖 - 後3全連接層轉化的卷積層有固定的5
× 5的輸入大小,分別對9張池化後的特徵圖使用移動窗口的模式進行操作,得到1000個類別每個類別9張2× 2特徵圖 - 將每個類別9張特徵圖組合成爲1張6
× 6特徵圖,從而結果爲3維(1000,6,6)
- 對一個固定尺度的單張圖像,從第五層的未池化20
操作流程的1維展示
對於一個固定尺度的圖像的水平翻轉也做同樣的操作。再對多個尺度的圖像(本文一共有6個)進行操作,最終分類結果爲:分別取一個類別中尺度和翻轉結果中最大值(平均值)作爲該類別的預測分數。
- 卷積網絡具有內在的移動窗口模式
訓練時保持全連接層不變,而在測試時將網絡全連接層轉化爲1× 1的卷積層得到一個全卷積網絡,如果輸入更大的圖片,就可以將輸出1× 1的點擴展爲一張類別預測圖,該圖中每一個點對應於輸入的一個窗口。因爲在測試時所有的層都是卷積層,那麼網絡就只有一系列的卷積、池化和閾值操作了。
移動窗口
2. 定位
將訓練好的分類網絡最後3層分類器替代爲一個迴歸網絡,訓練它來預測物體每個位置和尺度的邊界框,然後結合每個位置的迴歸結果和分類結果。
生成物體邊界框的預測
在所有位置和尺度上同時訓練共享卷積層的分類器和迴歸器(在訓練好卷積層和分類器之後,只需要重新計算迴歸器)。每個位置上對某個類別的分類概率都是這個類別的物體在該位置上出現(不是完全包含)的置信分數。我們可以把每個邊界邊框都賦予一個置信分數。迴歸網絡使用預測與實際邊界的L2 損失,迴歸輸出是與類別有關的(有1000個版本,對每個類別都有一個迴歸結果)。迴歸訓練
迴歸網絡的輸入是第五層池化後的特徵圖,前兩層爲4096和1024個神經元,輸出有4個神經元確定邊界框的邊界座標。假設對於9個偏移情況中任意一個第五層池化後的特徵圖爲256個6× 7,第一層輸入大小爲5× 5,卷積得到第一層4096個2× 3,第二層則是全連接的,結果爲1024個2× 3,輸出爲4個2× 3。
迴歸網絡
- 合併預測結果
最終預測結果是合併具有最大類別分數的邊界框,即通過累加定位的類別輸出,這些類別輸出是與預測邊界框時使用的窗口有關的。
3. 檢測
與定位不同的是在沒有物體的使用需要預測一個背景類別,傳統做法中負樣本是隨機選取的,而我們則是選取每張圖片有意思的負樣本。