《VISUALIZING THE LOSS LANDSCAPE OF NEURAL NETS》論文解析

引言

神經網絡的損失函數是一個高度非凸的函數,神經網絡的訓練在於我們能否在這個高度非凸的函數裏找到最小值。總所周知,某些網絡(如帶skip connections)會比較容易訓練,超參數(批量大小,學習率,優化器)選擇的合適,會使得模型泛化能力更高。但是,造成這些區別的原因究竟是什麼?他們對損失函數的曲面造成什麼影響,都是不太清楚的。

這篇論文裏,我們使用可視化的方法,探索了損失函數的結構和損失函數曲面對泛化性能的影響。首先我們介紹了一個簡單的“filter normalization"方法來幫助我們可視化損失函數彎曲面,和然後利用這個對各種不同損失函數做有意義的比較;然後,我們用各種可視化方法,來探索網絡結構如何影響損失曲面,及訓練超參數如何影響最小點的形狀。

介紹

訓練神經網絡需要最小化一個高維非凸的損失函數-理論上一直都是很難的任務,但有時實際中又很容易做到。儘管訓練通用神經網絡存在NP問題,簡單的梯度方法常常可以找到全局最小(零或者近似零),甚至在數據和標籤都是隨機的。但是這個良好特效並不是普遍存在的。神經網絡的可訓練性高度依賴網絡架構設計,優化器選擇,初始化方法和各種各樣的其他考慮。不幸的是,這些選擇對底層的損失函數曲面結構的影響是不太清楚的。因爲對損失函數評估的巨大代價(需要循環訓練數據上面的所有點),這方面的研究一直停留在理論層面。

我們使用高度可視化方法來提供神經網絡損失函數的一些經驗性特徵,探索網絡架構的選擇如何影響損失函數曲面。更進一步,我們探索了神經網絡損失函數的非凸結構如何影響可訓練性,神經網絡的極小點的幾何形狀(尖銳/平滑,周圍地形)如何影響他們的泛化性能。

爲了做到這一點,我們提出了一個簡單的”filter normalization"的方法來比較神經網絡不同優化方法找到的最小點,可視化來比較他們的銳度/平滑,也比較了網絡結構選擇對損失函數曲面的影響(使用skip connections,不同的filter數量,不同的網絡深度)。我們的目的是爲了瞭解損失函數幾何形狀如何影響神經網絡的泛化性能。

理論背景和相關工作

損失函數可視化基礎

神經網絡訓練就是最小化下面公式:

其中θ是網絡參數權重,xi,yi是訓練數據,m是訓練數據集數量,表示着網絡如何

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章