混合樣本數據增強(Mixed Sample Data Augmentation)


混合樣本數據增強(Mixed Sample Data Augmentation,MSDA)目前非常火熱,由於其實現簡單且對性能提升確實有幫助,因此在圖像識別、聲音識別、GAN、半監督學習等領域均有廣泛的應用。

MSDA的代表性算法是Mixup,最早出現在ICLR2018的論文“Mixup: Beyond Empirical Risk Minimization”中。關於這篇論文,博主專門寫了一篇文章進行了介紹【深度學習】Mixup: Beyond Empirical Risk Minimization,有興趣的可以去看看。

Mixup算法的核心思想是按一定的比例隨機混合兩個訓練樣本及其標籤。這種混合方式不僅能夠增加樣本的多樣性,並且能夠使不同類別的決策邊界過渡更加平滑,減少了一些難例樣本的誤識別,模型的魯棒性得到提升,訓練時也比較穩定。下圖展示了基於Mixup算法的training pipeline,

受Mixup算法思想的啓發,大量MSDA算法湧現出來,包括結合Mixup和mask,對Mixup方法進行Adaptive學習等。目前,MSDA相關算法主要應用在分類任務中,其中圖像分類相關論文居多。但是,不同領域的研究者也在嘗試mixup方法和本領域任務的結合,比如NLP、Semi-supervised Learning、GAN等領域。

 

博主整理了近幾年MSDA相關論文和代碼,並分享在github上,地址如下,

https://github.com/JasonZhang156/awesome-mixed-sample-data-augmentation

如果大家對MSDA算法有興趣,可以star或者fork到自己的倉庫。

博主會對內容持續更新!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章