數據增強方法

數據增強方法

一、單樣本數據增強方法

1.1 幾何變換類

包括翻轉,旋轉,裁剪,變形,縮放等方式

1.2 顏色變換類

包括噪聲、模糊、顏色變換、擦除、填充等方式

二、多樣本融合數據增強

2.1 SMOTE

SMOTE即Synthetic Minority Over-sampling Technique方法,它是通過人工合成新樣本來處理樣本不平衡問題,從而提升分類器性能。

類不平衡現象是很常見的,它指的是數據集中各類別數量不近似相等。如果樣本類別之間相差很大,會影響分類器的分類效果。假設小樣本數據數量極少,如僅佔總體的1%,則即使小樣本被錯誤地全部識別爲大樣本,在經驗風險最小化策略下的分類器識別準確率仍能達到99%,但由於沒有學習到小樣本的特徵,實際分類效果就會很差。SMOTE方法是基於插值的方法,它可以爲小樣本類合成新的樣本。

主要流程爲:
第一步,定義好特徵空間,將每個樣本對應到特徵空間中的某一點,根據樣本不平衡比例確定好一個採樣倍率N;

第二步,對每一個小樣本類樣本(x,y),按歐氏距離找出K個最近鄰樣本,從中隨機選取一個樣本點,假設選擇的近鄰點爲(xn,yn)。在特徵空間中樣本點與最近鄰樣本點的連線段上隨機選取一點作爲新樣本點,滿足以下公式:
在這裏插入圖片描述
第三步,重複以上的步驟,直到大、小樣本數量平衡。

2.2 SamplePairing

SamplePairing方法的原理非常簡單,從訓練集中隨機抽取兩張圖片分別經過基礎數據增強操作(如隨機翻轉等)處理後經像素以取平均值的形式疊加合成一個新的樣本,標籤爲原樣本標籤中的一種。這兩張圖片甚至不限制爲同一類別,這種方法對於醫學圖像比較有效。

在這裏插入圖片描述

2.3 mixup

λ∼Beta(α,α),α∈(0,∞)。
在這裏插入圖片描述(xi,yi)和(xj,yj)是從訓練數據中隨機抽取的兩個樣本,且λ∈[0,1]。因此,mixup通過結合先驗知識,即特徵向量的線性插值應導致相關標籤的線性插值,來擴展訓練分佈。
作用爲:將兩個類別之間用線性過度,提高介於兩個類別之間的泛化力,如圖所示。
在這裏插入圖片描述

2.4 cutout

隨機的將樣本中的部分區域cut掉,並且填充0像素值,分類的結果不變;

2.5 cutmix

就是將一部分區域cut掉但不填充0像素而是隨機填充訓練集中的其他數據的區域像素值,分類結果按一定的比例分配。
在這裏插入圖片描述

2.6 Fmix

根據圖像的高頻和低頻區域對圖像進行二值化,然後利用該掩模對像素進行加權。
在這裏插入圖片描述

2.7 roimix

用於水下檢測,模擬重疊,遮擋,和模糊的目標。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

三、無監督數據增強方法

無監督的數據增強方法包括兩類:

(1) 通過模型學習數據的分佈,隨機生成與訓練數據集分佈一致的圖片,代表方法GAN[4]。

(2) 通過模型,學習出適合當前任務的數據增強方法,代表方法AutoAugment[5]。

3.1 GAN

(1) G是一個生成圖片的網絡,它接收隨機的噪聲z,通過噪聲生成圖片,記做G(z) 。

(2) D是一個判別網絡,判別一張圖片是不是“真實的”,即是真實的圖片,還是由G生成的圖片。

在這裏插入圖片描述

3.2 Autoaugmentation

AutoAugment是Google提出的自動選擇最優數據增強方案的研究,這是無監督數據增強的重要研究方向。它的基本思路是使用增強學習從數據本身尋找最佳圖像變換策略,對於不同的任務學習不同的增強方法,流程如下:
(1) 準備16個常用的數據增強操作。
(2) 從16箇中選擇5個操作,隨機產生使用該操作的概率和相應的幅度,將其稱爲一個sub-policy,一共產生5個sub-polices。
(3) 對訓練過程中每一個batch的圖片,隨機採用5個sub-polices操作中的一種。
(4) 通過模型在驗證集上的泛化能力來反饋,使用的優化方法是增強學習方法。
(5) 經過80~100個epoch後網絡開始學習到有效的sub-policies。
(6) 之後串接這5個sub-policies,然後再進行最後的訓練。總的來說,就是學習已有數據增強的組合策略,對於門牌數字識別等任務,研究表明剪切和平移等幾何變換能夠獲得最佳效果。

參考連接:https://zhuanlan.zhihu.com/p/61759947

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章