論文題目:Online Hyper-parameter Learning for Auto-Augmentation Strategy
提出一種將自動增強問題 近似爲 超參數的優化問題,並且動態地提升自動數據增強的策略的效果。
主要內容:
1、提出在線超參學習方法。將每個增強策略視作一個參數概率分佈
2、提出一個雙層結構,允許分佈參數能與網絡參數一起訓練
3、提出 OHL-Auto-Aug 動態的改善性能
在雙層結構中,內部目標是優化vanilla train loss,即網絡參數,外部目標是優化 驗證集的準確率,即增強策略的分佈參數。兩個目標同時優化,作爲整體不用再retraining,計算量減少。
在內部訓練,利用增強採樣,使用SGD訓練網絡參數。
在外部訓練, 利用trajectory 樣本,使用REINFORCE梯度,訓練增強策略分佈參數。
在每一步的迭代中,網絡參數中高準確率將broadcasted 到trajectory samples
Problem Formulation
自動數據增強到策略是自動的找到一個增強操作集,增加模型的泛化性
- 將數據增強策略 作爲 (在增強操作上的概率分佈)。
- 假設有K的候選的增強操作,
- 每個操作被選擇的概率是
- 網絡模型
- 數據增強的目標是:對於,最大化驗證集的;對於模型權重,最小化訓練。
在外層,在獲得最好的model ,性能之下,我們尋找參數。其中是內層問題的解。
- 表示外層更新迭代的steps
-$ i = 1, 2, …, I$表示內層更新迭代的steps
外層優化更新一次,內部訓練更新 個steps - trajectory ,在T週期中所以的aug操作
對於內層的訓練
對於外層的訓練
基於REINFORCE 算法,Monte-Carlo 採樣,解決外層訓練優化問題
- 認爲僅與trajectory T 有關
- 內部訓練,N個網絡同時訓練, N 個採樣 trajectories. is the n-th trajectory.
候選操作
算法流程
關鍵點:
1、將aug看出概率分佈,避免採樣
2、N個模型,選擇最好的 broadcast
3、優化θ,最大化驗證集轉換公式