深度學習入門--label-preserving transformations(標籤保留轉換）

原創

2019-02-19 06:37

在Alexnet論文當中，提到label-preserving transformations,這是一種減少過擬合的方式。也就是在不影響圖像標籤的前提下，對圖片進行變換，以達到數據增強的目的。通過這種方式增大我們的數據集，來減少過擬合。
論文中介紹了兩種數據增強方式：
1#第一種數據增強方式包括產生圖像變換和水平翻轉。我們從256×256圖像上通過隨機提取224 × 224的圖像塊實現了這種方式，然後在這些提取的圖像塊上進行訓練。這通過一個2048因子增大了我們的訓練集，儘管最終的訓練樣本是高度相關的。沒有這個方案，我們的網絡會有大量的過擬合，這會迫使我們使用更小的網絡。在測試時，網絡會提取5個224 × 224的圖像塊（四個角上的圖像塊和中心的圖像塊）和它們的水平翻轉（因此總共10個圖像塊）進行預測，然後對網絡在10個圖像塊上的softmax層進行平均。[2]
2#第二種數據增強方式包括改變訓練圖像的RGB通道的強度。具體地，我們在整個ImageNet訓練集上對RGB像素值集合執行PCA。對於每幅訓練圖像，我們加上多倍找到的主成分，大小成正比的對應特徵值乘以一個隨機變量，隨機變量通過均值爲0，標準差爲0.1的高斯分佈得到。因此對於每幅RGB圖像像素 $I_xy = [I^R_{xy} , I^G_{xy} , I^B_{xy} ]^T$ ，我們加上下面的數量：
$[p_1, p_2, p_3][\alpha_1\lambda_1, \alpha_2\lambda_2, \alpha_3\lambda_3]^T$
$p_i$ ， $\lambda_i$ 分別是RGB像素值3 × 3協方差矩陣的第 $i$ 個特徵向量和特徵值， $\alpha_i$ 是前面提到的隨機變量。對於某個訓練圖像的所有像素，每個 $\alpha_i$ 只獲取一次，直到圖像進行下一次訓練時才重新獲取。這個方案近似抓住了自然圖像的一個重要特性，即光照的顏色和強度發生變化時，目標身份是不變的。這個方案減少了top 1錯誤率1%以上。[2]

Reference：
[1] https://www.cnblogs.com/RyanXing/p/9813602.html
[2] AlexNet論文翻譯——中英文對照

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

深度學習入門--label-preserving transformations(標籤保留轉換）

一鍵自動化博客發佈工具,用過的人都說好(頭條篇)

入門機器學習實用指南Hands-On Machine Learning with Scikit-Learn & TensorFlow （第二章）

Center Loss: A Discriminative Feature Learning Approachfor Deep Face Recognition

入門機器學習實用指南Hands-On Machine Learning with Scikit-Learn & TensorFlow （第四章）

DeepID2+：Deeply learned face representations are sparse, selective, and robus

DeepID1-Deep Learning Face Representation from Predicting 10,000 Classes

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

深度學習入門--label-preserving transformations(標籤保留 轉換）

深度學習入門--label-preserving transformations(標籤保留轉換）