DEEP DOUBLE DESCENT: WHERE BIGGER MODELS AND MORE DATA HURT

原創

2020-06-22 11:32

文章目錄

Nakkiran P, Kaplun G, Bansal Y, et al. Deep Double Descent: Where Bigger Models and More Data Hurt[J]. arXiv: Learning, 2019.

@article{nakkiran2019deep,
title={Deep Double Descent: Where Bigger Models and More Data Hurt},
author={Nakkiran, Preetum and Kaplun, Gal and Bansal, Yamini and Yang, Tristan and Barak, Boaz and Sutskever, Ilya},
journal={arXiv: Learning},
year={2019}}

概

本文介紹了深度學習中的二次下降(double descent)現象, 利用實驗剖析其可能性.

主要內容

注意到, 在其他條件固定的情況下, 當網絡的性能增加(這裏指的是ResNet18的參數個數)時, 會出現一中損失率先下降在上升至一個peak再下降的過程.

而右圖則向我們展示了, epochs並非越多越好, 如果我們能夠即時停止訓練, 很有可能就能避免二次下降的現象.

Effective Model Complexity(EMC)

在訓練過程 $\mathcal{T}$ , 關於數據分佈 $\mathcal{D}$ 與參數 $\epsilon$ 下, Effective Model Complexity(EMC)定義爲:
$\mathrm{EMC}_{\mathcal{D}, \epsilon} (\mathcal{T}) := \max \{n | \mathbb{E}_{S \sim \mathcal{D}^n} [\mathrm{Error}_S(\mathcal{T}(S))] \le \epsilon\},$
其中 $\mathrm{Error}_S(M)$ 爲模型 $M$ 在訓練樣本 $S$ 上的平均誤差.

作者認爲, 一個模型 $M$ , 訓練樣本爲 $n$ , $\mathrm{EMC}$ 比 $n$ 足夠小, 或者足夠大的時候, 提升 $\mathrm{EMC}$ (即提升模型的性能) 是能夠降低測試誤差(test error)的, 但是, 在 $n$ 的附近 $(n-\delta_1,n+\delta_2)$ 時候, 模型的變化, 既有可能使得模型變好, 也有可能使得模型便壞.