Learning to Reweight Examples for Robust Deep Learning

Abstract

面對樣本不平衡問題和標籤噪聲等問題，之前是通過regularizers或者reweight算法，但是需要不斷調整超參取得較好的效果。本文提出了meta-learning的算法，基於梯度方向調整權重。具體做法是需要保證獲得一個足夠乾淨的小樣本數據集，每經過一輪batch大小的訓練就基於當前更新的權重，執行meta gradient descent step來最小化在這個乾淨無偏差的驗證集上的loss。這個方法避免了額外的超參調整，在樣本不平衡和標籤噪聲等問題上可以有很好的效果，所需要的僅僅是一個很小數量的乾淨的驗證集。

Related Work

在解決樣本問題上的工作：

訓練集樣本權重分配：
AdaBoost：尋找難例來訓練分類器。
難例挖掘：下采樣多數樣本，挖掘最難的樣本
Focal Loss：不同樣本添加不同權重，困難樣本權重更大
outliers和noise processes：
有些方法是先學習簡單樣本在學習困難樣本
部分工作是去研究如何更好地初始化網絡參數
直接對樣本數據集下手，re-sample之類的

在最近的meta-learning中，很多都在探索使用validation loss作爲meta-objective，本文算法的區別是沒有額外的超參，並且避免了成本較高的離線訓練。

Learning to Reweight Examples

本文的模型看做online approximation而不是meta-learning objective，這樣就可以處理任何常規的監督學習。
文章給出了具體實現並且有理論保證，收斂率爲 $O\left(1 / \epsilon^{2}\right)$

3.1 From a meta-learning objective to online approximation

$(x,y)$ 爲輸入-標籤對， $\left\{\left(x_{i}, y_{i}\right), 1 \leq i \leq N\right\}$ 爲訓練集，假設 $\left\{\left(x_{i}^{v}, y_{i}^{v}\right), 1 \leq i \leq M\right\}$ 爲一個很小的乾淨無偏差的驗證集，其中 $M \ll N$ . $v$ 表示驗證集， $i$ 表示第 $i^{th}$ 個數據；同時假設訓練集是包含驗證集的，如果不包含，就把驗證集加入到訓練集中，從而使得訓練過程中能夠利用更多信息。

用 $\Phi(x, \theta)$ 表示網絡模型， $\theta$ 爲模型參數，定義 $C(\hat{y}, y)$ 爲loss函數，其中 $\hat{y}=\Phi(x, \theta)$ 。

在一般的訓練中，我們希望最小化訓練集上的期望loss，也就是 $\frac{1}{N} \sum_{i=1}^{N} C\left(\hat{y}_{i}, y_{i}\right)=\frac{1}{N} \sum_{i=1}^{N} f_{i}(\theta)$ ，其中每一個輸入樣本權重相等， $f_{i}(\theta)$ 表示輸入數據 $x_i$ 對應的loss。本文希望通過最小化weighted loss來學習去re-weight 輸入。weighted loss如下：
$\theta^{*}(w)=\arg \min _{\theta} \sum_{i=1}^{N} w_{i} f_{i}(\theta) \tag{1}$
其中 $w_i$ 一開始未知， $\left\{w_{i}\right\}_{i=1}^{N}$ 可以被理解成訓練超參數，基於 $w$ 在驗證集上的表現來最優化 $w$ ：
$w^{*}=\arg \min _{w, w \geq 0} \frac{1}{M} \sum_{i=1}^{M} f_{i}^{v}\left(\theta^{*}(w)\right) \tag{2}$
這裏需要保證 $w_i \geq 0$ 對所有的 $i$ ，因爲最小化負的training loss可能會導致一些不穩定的情況。

Note：公式（1）（2）實際上就是最小化training loss同時還得保證這時候的權重在驗證集的loss也最小。

Online Approximation 計算最優的 $w_i$ 需要兩層嵌套的最優化循環，並且單個循環成本很高。本文方法的目的是通過一層優化循環來在線調整 $w$ 。每一個training iteration中，首先只在training loss平面上檢查部分訓練樣本的下降方向，然後根據和validation loss平面下降方向的相似性對樣本進行reweighting。

大多數深度網絡都有用SGD或者改進版來優化loss。對於training過程的每一步 $t$ ，採樣出mini-batch個訓練樣本 $\left\{\left(x_{i}, y_{i}\right), 1 \leq i \leq n\right\}$ ， $n$ 是mini-batch size 且 $n \ll N$ 。然後根據mini-batch上期望loss的下降方向來更新參數。
最普通的SGD如下：
$\theta_{t+1}=\theta_{t}-\alpha \nabla\left(\frac{1}{n} \sum_{i=1}^{n} f_{i}\left(\theta_{t}\right)\right) \tag{3}$
其中 $\alpha$ 是step size。

本文想要探究在第 $t$ 個training step，什麼因素影響了訓練樣本 $i$ 在validation set上的性能。
於是對mini-batch 中的每個樣本，加上一個權重擾動 $\epsilon_{i}$
$f_{i, \epsilon}(\theta)=\epsilon_{i} f_{i}(\theta) \tag{4}$
Note: 目前這樣和weighted loss看起來沒什麼區別
$\hat{\theta}_{t+1}(\epsilon)=\theta_{t}-\left.\alpha \nabla \sum_{i=1}^{n} f_{i, \epsilon} (\theta)\right|_{\theta=\theta_{t}} \tag{5}$
然後尋找在第 $t$ 步能夠最小化驗證集loss $f^{v}$ 的最優的 $\epsilon^*$
$\epsilon_{t}^{*}=\arg \min _{\epsilon} \frac{1}{M} \sum_{i=1}^{M} f_{i}^{v}\left(\theta_{t+1}(\epsilon)\right) \tag{6}$
這樣計算依然成本很高，爲了更容易的在第 $t$ 步估計 $w_i$ ,本文在mini-batch大小的驗證集( $\epsilon_t$ )上採用一步梯度下降(single gradient descent step)，並對輸出進行矯正保證權重均非負。
$u_{i, t}=-\left.\eta \frac{\partial}{\partial \epsilon_{i, t}} \frac{1}{m} \sum_{j=1}^{m} f_{j}^{v}\left(\theta_{t+1}(\epsilon)\right)\right|_{\epsilon_{i, t}=0} \tag{7}$
$\tilde{w}_{i, t}=\max \left(u_{i, t}, 0\right) \tag{8}$
其中 $\eta$ 是在 $\epsilon$ 上的下降步長。

爲了匹配原本的訓練步長，實際上，我們可以考慮在一個batch中把所有樣本的權重標準化，使他們的和爲1.
也就是對集合加一個強限制，使其滿足 $\{w:\|w\|_{1}=1 \} \cup \{0\}$
$w_{i, t}=\frac{\tilde{w}_{i, t}}{\left(\sum_{j} \tilde{w}_{j, t}\right)+\delta\left(\sum_{j} \tilde{w}_{j, t}\right)} \tag{9}$
其中 $\delta(\cdot)$ 是爲了防止出現在mini-batch中所有的 $w_i$ 都是0的情況，也就是如果 $a=0$ 那麼有 $\delta(a)=1$ ,其他情況下都是 $\delta(a)=0$ 。如果沒有批歸一化步驟，該算法可能朝着最高效的學習率的方向修改，本文的one-step方法在學習率的選擇上可能會更保守。此外，通過批歸一化，有效地取消了元學習速率參數 $\eta$ 。

3.2 Example on MLP

給了一個多層感知器的數學公式推導，感興趣可以閱讀原文

3.3 Implementation using automatic differentiation

Note:圖的流程描述下來就是首先正常前向計算，獲得loss，然後backward，依據樣本權重更新參數，獲得新的參數 $\hat{\theta}$ ，然後放入驗證集forward,backward,根據validation loss 獲得樣本權重並更新。然後繼續步驟1.

詳細算法步驟如下：

使用這個reweight策略的訓練時間是正常訓練網絡的三倍（因爲有兩次forward-backward，還有一個backward-on-backward），如果想縮減時間，可以減少驗證集的batch size。
作者認爲多花時間訓練來避免不斷的調參之類的操作是值得的。

3.4 reweighted training的收斂證明

有空在補，公式太多不想看了

4 Experiments

作者做了兩個實驗，一個是在MNIST上的imbalance問題，一個是CIFAR上的noisy label問題。

作者說適用於任何深度網絡，已經有了開源的pytorch代碼，後續加到自己的工作中試一下看看效果。

[Paper Note] Learning to Reweight Examples for Robust Deep Learning

Learning to Reweight Examples for Robust Deep Learning

Abstract

Related Work

Learning to Reweight Examples

3.1 From a meta-learning objective to online approximation

3.2 Example on MLP

3.3 Implementation using automatic differentiation

3.4 reweighted training的收斂證明

4 Experiments

python gdal 安裝使用（Windows， python 3.6.8）

【Ctrl_I】團隊日記6

Tensorflow 1.X : tf.xx is deprecated, Please use tf.compat.v1.xx instead

[Paper Note] Learning to Reweight Examples for Robust Deep Learning

【創新實訓7】手勢識別WEB端遷移整合

anaconda目錄遷移工作採坑記錄

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結