A Survey on Image Data Augmentation for deep learning
Ref:
1. A survey on Image Data Augmentation for Deep Learning
2. Generative Adversarial Network in Medical Imaging- A Review
1. 目的是解決過擬合問題
常用方法有:
- Dropout Batch normalization 等正則化方法
- Transfer learning, pretraining 等訓練方法
- one-shot, zero-shot等元學習方法
- 增加數據質量和數量
2.圖像數據增強的常用方法
3. Basic Image Manipulations
Geometrric transformation 基於位置的變換,包括:
- rotation
- flipping
- cropping
- translation: shift the image up/down to avoid positional bias
Color space transformation 基於圖像色彩空間的變換,包括:
5. change color space like RGB
6. color jittering
7. edge enhancement
8. PCA
Noise injection 把噪聲注入到圖片
Kernel filter 使用sharpen或blur到圖片上,這個方法也可直接作用於模型中
Mixing Images 混合圖像法
Random earsing 隨機擦除一部分圖像做掩模,作爲增強的圖像
4.Deep Learning Based Methods
- Feature Space Augmentation, 對已經通過模型處理的(嵌入的圖片)圖片特徵向量做處理
- Adversial Training,使用如噪聲注入的方法攻擊當前圖像,作爲數據增強。
- GAN based methods 使用GAN生成新的圖像
- Neural Style Transfer 使用深度學習,把圖像從一種表示轉變到另一種表示,空間向量的轉變。
5.Other Methods
- Test-time augmentation 在測試的時候增強測試數據,可以使模型更加stable
- Curriculum learning 使用循環訓練數據的方法,對抗在選擇訓練數據random selection帶來的問題
- Resolution Impact 對於分辨率的操作,如生成超分辨率的圖像以提升模型性能
6. Evaluation
使用Visual Turing Test對生成的數據進行測試,看是否滿足評估標準
7. GAN 爲核心的方法
GAN在圖像生成方向可大致分爲三類
基於判別器的改進:
- 對於loss的改進, f-divergence(f-GANs),least-squarel (LSGANs),hinge loss,Wasserstein distance(WGAN)
- 由於GAN無法做推理,故提出了ALI,BiGAN,InfoGAN
基於生成器的改進:
- 對於生成圖像的約束 conditional GANs
- 圖像翻譯 CycleGAN,UNIT
基於GAN結構的改進:
- 上/下采樣 DCGAN
- 高分辨率圖像 LAPGAN
- 風格轉換 StyleGAN,SPADE
8.GAN用於圖像數據生成
- unconditional methods: 隨機輸入噪聲,輸出爲圖像,一般是按類生成。DCGAN,WGAN,PGGAN
- modality cross:在多模態的限制下,輸入輸出都爲圖像,意在用不同的空間向量表達同一圖像。CycleGAN
- 其他條件限制:如text,segment,location等,一般基於通用的conditional GANs
9.結論和感想
- 圖像增強可以分爲 image warping 和 oversampling兩類
- 圖像的成對翻譯在數據增強方向仍有潛力
- 一些方法是可以結合的,如random earsing可以與多種模型結合,GAN由於其內在遞歸屬性,從GAN中生成的數據可以用傳統方法進行二次增強
- 未來的研究會集中提升在GAN生成樣本的質量上,
- 將元學習與數據增強結合,可能會揭示爲什麼數據增強能影響分類任務
- 可以使用GAN+NAS的思路做數據增強