深度學習入門--label-preserving transformations(標籤保留 轉換)

在Alexnet論文當中,提到label-preserving transformations,這是一種減少過擬合的方式。也就是在不影響圖像標籤的前提下,對圖片進行變換,以達到數據增強的目的。通過這種方式增大我們的數據集,來減少過擬合。
論文中介紹了兩種數據增強方式:
1#第一種數據增強方式包括產生圖像變換和水平翻轉。我們從256×256圖像上通過隨機提取224 × 224的圖像塊實現了這種方式,然後在這些提取的圖像塊上進行訓練。這通過一個2048因子增大了我們的訓練集,儘管最終的訓練樣本是高度相關的。沒有這個方案,我們的網絡會有大量的過擬合,這會迫使我們使用更小的網絡。在測試時,網絡會提取5個224 × 224的圖像塊(四個角上的圖像塊和中心的圖像塊)和它們的水平翻轉(因此總共10個圖像塊)進行預測,然後對網絡在10個圖像塊上的softmax層進行平均。[2]
2#第二種數據增強方式包括改變訓練圖像的RGB通道的強度。具體地,我們在整個ImageNet訓練集上對RGB像素值集合執行PCA。對於每幅訓練圖像,我們加上多倍找到的主成分,大小成正比的對應特徵值乘以一個隨機變量,隨機變量通過均值爲0,標準差爲0.1的高斯分佈得到。因此對於每幅RGB圖像像素Ixy=[IxyR,IxyG,IxyB]TI_xy = [I^R_{xy} , I^G_{xy} , I^B_{xy} ]^T,我們加上下面的數量:
[p1,p2,p3][α1λ1,α2λ2,α3λ3]T[p_1, p_2, p_3][\alpha_1\lambda_1, \alpha_2\lambda_2, \alpha_3\lambda_3]^T
pip_iλi\lambda_i分別是RGB像素值3 × 3協方差矩陣的第ii個特徵向量和特徵值,αi\alpha_i是前面提到的隨機變量。對於某個訓練圖像的所有像素,每個αi\alpha_i只獲取一次,直到圖像進行下一次訓練時才重新獲取。這個方案近似抓住了自然圖像的一個重要特性,即光照的顏色和強度發生變化時,目標身份是不變的。這個方案減少了top 1錯誤率1%以上。[2]

Reference:
[1] https://www.cnblogs.com/RyanXing/p/9813602.html
[2] AlexNet論文翻譯——中英文對照

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章