隨機優化方法的證明以及在構架搜索上的應用

參考一下三篇論文:
1 AdaGrad stepsizes: sharp convergence over nonconvex landscapes, from any initialization
https://arxiv.org/abs/1806.01811
adagrad算法在凸優化拓撲上能夠很好地收斂,是一種自適應的梯度算法,梯度算法不需要手動的微調學習率被廣泛的應用於神經網絡的優化,adagrad-norm收斂的精確度很高,並且針對不同的超參數有很強的魯棒性,在 SGD 算法中,當學習率固定時,只有在學習率α≤ 1/L 時,優化的方程可以收斂,反之,即使學習率僅翻一倍,優化的方程極有可能震盪或發散。因此,一個確定的學習率很有可能給優化算法的有效性帶來挑戰。
adagrad方法子在sgd算法的基礎上進行了更新,使得學習率不在手動更新,通過算法進行構架,新的權重跟新方法是:在這裏插入圖片描述
其中 G 是對角矩陣,矩陣第(i,i)項爲θi 從第 1 輪到第 t 輪梯度的平方和。在無噪聲的情況下,取值梯度值,在有噪聲的情況下,取值梯度的無偏估計 E[G] = ∇F(x)。ϵ取一極小值,爲平滑項,作用是防止分母爲零。由此可知隨着優化的遞進,學習率將不斷降低,因此不需要手動調節學習率,是一種自適應的梯度算法。
本文使用的是 AdaGrad 系列裏的一種優化算法——Adagrad-Norm。算法的數學表達式在下面列出:

在這裏插入圖片描述
證明顯示,SGD 算法的常數學習率在大於 2/L 的情況下無法收斂,但 AdaGrad-Norm 可在任何值的 b0 和 η 下收斂。
文中使用了動量爲 0.9 的默認值,結果顯示 AdaGrad-Norm 在有動量的情況下對 SGD 初始化有着很強的魯棒性。當 b0 比 Lipschitz 常數更大的時候,帶動量的 SGD 比 AdaGrad-Norm 表現更好。當 b0 小於 Lipschitz 常數時,AdaGrad-Norm 的表現比 SGD 好。
總結

  • 證明了adagrad-norm算法的收斂性
  • adagrad的收斂性優於sgd,即使初始值過大或者過小,收斂性依然很好
  • 證明收斂性在真實和虛構的數據集上均有很好的表現,針對不同的b0初始值有很強的魯棒性

2 Gradient Descent Finds Global Minima of Deep Neural Networks
https://arxiv.org/pdf/1811.03804.pdf
本文主要證明了梯度下降法可以在過擬合的 ResNet 上以多項式時間找到最優點,使損失方程值達到零。全局最優點由格拉姆矩陣(Gram matrix)的穩定性證明。在深度殘餘卷積神經網絡(deep residual CNN)的應用上,梯度下降依然可以優化至全局最優解,且損失函數爲零
本文證明了隨機初始化的梯度下降可以使得損失函數降爲0,針對所有 1)局部最優點即爲全局最優點的,2)每一個鞍點都有負曲率的方程,梯度下降法可以成功找到全局最優解 [1][2][3][4]
3 Adaptive Stochastic Natural Gradient Method for One-Shot Neural Architecture Search
NAS針對學習率和搜索空間有很強敏感性,以至於使用者很難將之運用到某一個特殊問題,儘管搜索的方法是將參數調整自動化,文章將隨機鬆弛將鏈接權重和神經結構的耦合優化轉化爲可微分優化,廣泛的適用性在於他接受任意的搜索空間,其速度在於能夠同步優化梯度的權重和構架,魯棒性在於自適應的學習率有很強的理論支持。文中的方法簡單泛化性好,在圖像分類和修復中表現接近最先進技術的性能並使用極低的計算預算。
NAS的研究主要有三個方向,1 如何估計框架的結構,2,如何定義搜索空間,3如何優化結構
優化可以通過連續鬆弛或隨機鬆弛將權重和構架的耦合優化轉化爲可微分目標的優化,採用梯度下降和熙然梯度下降策略,採用現有的自適應步長機制或恆定步長可以同時優化網路權重和結構,但是優化性能對於輸入是非常敏感的例如學習了和搜索空間。
本文開發了ASNG,採用了步長適應機制,來近似滿足此條件,顯著的降低了構架對於輸入的敏感性,使得整個框架更加靈活,
章的主要貢獻包括以下幾點:

提供了一個幾乎可以處理任意類型結構變量的架構,只要可以在其上定義一個參數組的概率分佈

文章提出了針對於隨機自然梯度上升法制定了步長自適應的機制,提高了優化速度和超參調整的魯棒性,併爲所有引入的超參數準備了默認值,即使架構搜索空間發生變化也無需改變它們

所提出的方法可以並行運算,它與現有方法的速度相當甚至更快,即使是在串行實現上也是如此

提出的策略非常簡單,所以可以很好的開發步長自適應機制

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章