在Alexnet論文當中,提到label-preserving transformations,這是一種減少過擬合的方式。也就是在不影響圖像標籤的前提下,對圖片進行變換,以達到數據增強的目的。通過這種方式增大我們的數據集,來減少過擬合。
論文中介紹了兩種數據增強方式:
1#
第一種數據增強方式包括產生圖像變換和水平翻轉。我們從256×256圖像上通過隨機提取224 × 224的圖像塊實現了這種方式,然後在這些提取的圖像塊上進行訓練。這通過一個2048因子增大了我們的訓練集,儘管最終的訓練樣本是高度相關的。沒有這個方案,我們的網絡會有大量的過擬合,這會迫使我們使用更小的網絡。在測試時,網絡會提取5個224 × 224的圖像塊(四個角上的圖像塊和中心的圖像塊)和它們的水平翻轉(因此總共10個圖像塊)進行預測,然後對網絡在10個圖像塊上的softmax層進行平均。[2]
2#
第二種數據增強方式包括改變訓練圖像的RGB通道的強度。具體地,我們在整個ImageNet訓練集上對RGB像素值集合執行PCA。對於每幅訓練圖像,我們加上多倍找到的主成分,大小成正比的對應特徵值乘以一個隨機變量,隨機變量通過均值爲0,標準差爲0.1的高斯分佈得到。因此對於每幅RGB圖像像素,我們加上下面的數量:
,分別是RGB像素值3 × 3協方差矩陣的第個特徵向量和特徵值,是前面提到的隨機變量。對於某個訓練圖像的所有像素,每個只獲取一次,直到圖像進行下一次訓練時才重新獲取。這個方案近似抓住了自然圖像的一個重要特性,即光照的顏色和強度發生變化時,目標身份是不變的。這個方案減少了top 1錯誤率1%以上。[2]
Reference:
[1] https://www.cnblogs.com/RyanXing/p/9813602.html
[2] AlexNet論文翻譯——中英文對照