DEEP DOUBLE DESCENT: WHERE BIGGER MODELS AND MORE DATA HURT

Nakkiran P, Kaplun G, Bansal Y, et al. Deep Double Descent: Where Bigger Models and More Data Hurt[J]. arXiv: Learning, 2019.

@article{nakkiran2019deep,
title={Deep Double Descent: Where Bigger Models and More Data Hurt},
author={Nakkiran, Preetum and Kaplun, Gal and Bansal, Yamini and Yang, Tristan and Barak, Boaz and Sutskever, Ilya},
journal={arXiv: Learning},
year={2019}}

本文介紹了深度學習中的二次下降(double descent)現象, 利用實驗剖析其可能性.

主要內容

在這裏插入圖片描述
注意到, 在其他條件固定的情況下, 當網絡的性能增加(這裏指的是ResNet18的參數個數)時, 會出現一中損失率先下降在上升至一個peak再下降的過程.

而右圖則向我們展示了, epochs並非越多越好, 如果我們能夠即時停止訓練, 很有可能就能避免二次下降的現象.

Effective Model Complexity(EMC)

在訓練過程T\mathcal{T}, 關於數據分佈D\mathcal{D}與參數ϵ\epsilon下, Effective Model Complexity(EMC)定義爲:
EMCD,ϵ(T):=max{nESDn[ErrorS(T(S))]ϵ}, \mathrm{EMC}_{\mathcal{D}, \epsilon} (\mathcal{T}) := \max \{n | \mathbb{E}_{S \sim \mathcal{D}^n} [\mathrm{Error}_S(\mathcal{T}(S))] \le \epsilon\},
其中ErrorS(M)\mathrm{Error}_S(M)爲模型MM在訓練樣本SS上的平均誤差.

作者認爲, 一個模型MM, 訓練樣本爲nn, EMC\mathrm{EMC}nn足夠小, 或者足夠大的時候, 提升EMC\mathrm{EMC} (即提升模型的性能) 是能夠降低測試誤差(test error)的, 但是, 在nn的附近(nδ1,n+δ2)(n-\delta_1,n+\delta_2)時候, 模型的變化, 既有可能使得模型變好, 也有可能使得模型便壞.

label noise

在這裏插入圖片描述

顯然, label noise越小越好( 作者認爲label noise 會導致模型不易訓練), 而且網絡的EMC越大(這裏指的是網絡的參數個數), 對其抗性越好.

data augmentation

在這裏插入圖片描述

顯然 data augmentation 能夠增加對label noise的抗性.

下降方式

只能說, 下降方式是有較大影響的.

SGD vs Adam

在這裏插入圖片描述

Adam

在這裏插入圖片描述

SGD

在這裏插入圖片描述

SGD + Momentum

在這裏插入圖片描述

early-stopping

即如果我們能夠及早停止訓練(適中的epoches)能夠避免二次下降的發生, 這一點在Fig 20中體現的淋漓盡致. 但是也並不絕對, 因爲Fig 19提供了一個反例.
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

Epoches

顯然, 適中的或者儘可能多的epoches是好的.
在這裏插入圖片描述

在這裏插入圖片描述

樣本數量

對於小型的模型, 增加數據(超出其承受範圍)反而會使得模型變差.
在這裏插入圖片描述
在這裏插入圖片描述

weight-decay

weight-decay 對提升EMC是起作用的.
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章