[NAS]OHL-Auto-Aug

論文題目:Online Hyper-parameter Learning for Auto-Augmentation Strategy


提出一種將自動增強問題 近似爲 超參數的優化問題,並且動態地提升自動數據增強的策略的效果。

主要內容:
1、提出在線超參學習方法。將每個增強策略視作一個參數概率分佈
2、提出一個雙層結構,允許分佈參數能與網絡參數一起訓練
3、提出 OHL-Auto-Aug 動態的改善性能


在雙層結構中,內部目標是優化vanilla train loss,即網絡參數,外部目標是優化 驗證集的準確率,即增強策略的分佈參數。兩個目標同時優化,作爲整體不用再retraining,計算量減少。

在內部訓練,利用增強採樣,使用SGD訓練網絡參數。
在外部訓練, 利用trajectory 樣本,使用REINFORCE梯度,訓練增強策略分佈參數。
在每一步的迭代中,網絡參數中高準確率將broadcasted 到trajectory samples

在這裏插入圖片描述


Problem Formulation

自動數據增強到策略是自動的找到一個增強操作集,增加模型的泛化性

  • 將數據增強策略 作爲 pθp_θ(在增強操作上的概率分佈)。
  • 假設有K的候選的增強操作, Ok()k=1:K{O_k (·)}_{k=1:K }
  • 每個操作被選擇的概率是pθ(Ok)p_θ (Ok )
  • 網絡模型F(,w)F (·, w)
  • 數據增強的目標是:對於θθ,最大化驗證集的accacc;對於模型權重ww,最小化訓練lossloss

在外層,在獲得最好的model F(,w)F(·,w∗) ,性能之下,我們尋找參數θθ。其中ww*是內層問題的解。

  • T=1,2,...TmaxT = 1, 2, ...T_{max} 表示外層更新迭代的steps
    -$ i = 1, 2, …, I$表示內層更新迭代的steps
    外層優化更新一次,內部訓練更新 II個steps
  • trajectory ,在T週期中所以的aug操作
對於內層的訓練
對於外層的訓練

基於REINFORCE 算法,Monte-Carlo 採樣,解決外層訓練優化問題

  • 認爲wTw_T僅與trajectory T 有關
                
  • 內部訓練,N個網絡同時訓練, N 個採樣 trajectories. TnT_n is the n-th trajectory.

候選操作
算法流程

關鍵點:
1、將aug看出概率分佈,避免採樣
2、N個模型,選擇最好的wtw_t broadcast
3、優化θ,最大化驗證集accacc轉換公式

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章