随机优化方法的证明以及在构架搜索上的应用

参考一下三篇论文:
1 AdaGrad stepsizes: sharp convergence over nonconvex landscapes, from any initialization
https://arxiv.org/abs/1806.01811
adagrad算法在凸优化拓扑上能够很好地收敛,是一种自适应的梯度算法,梯度算法不需要手动的微调学习率被广泛的应用于神经网络的优化,adagrad-norm收敛的精确度很高,并且针对不同的超参数有很强的鲁棒性,在 SGD 算法中,当学习率固定时,只有在学习率α≤ 1/L 时,优化的方程可以收敛,反之,即使学习率仅翻一倍,优化的方程极有可能震荡或发散。因此,一个确定的学习率很有可能给优化算法的有效性带来挑战。
adagrad方法子在sgd算法的基础上进行了更新,使得学习率不在手动更新,通过算法进行构架,新的权重跟新方法是:在这里插入图片描述
其中 G 是对角矩阵,矩阵第(i,i)项为θi 从第 1 轮到第 t 轮梯度的平方和。在无噪声的情况下,取值梯度值,在有噪声的情况下,取值梯度的无偏估计 E[G] = ∇F(x)。ϵ取一极小值,为平滑项,作用是防止分母为零。由此可知随着优化的递进,学习率将不断降低,因此不需要手动调节学习率,是一种自适应的梯度算法。
本文使用的是 AdaGrad 系列里的一种优化算法——Adagrad-Norm。算法的数学表达式在下面列出:

在这里插入图片描述
证明显示,SGD 算法的常数学习率在大于 2/L 的情况下无法收敛,但 AdaGrad-Norm 可在任何值的 b0 和 η 下收敛。
文中使用了动量为 0.9 的默认值,结果显示 AdaGrad-Norm 在有动量的情况下对 SGD 初始化有着很强的鲁棒性。当 b0 比 Lipschitz 常数更大的时候,带动量的 SGD 比 AdaGrad-Norm 表现更好。当 b0 小于 Lipschitz 常数时,AdaGrad-Norm 的表现比 SGD 好。
总结

  • 证明了adagrad-norm算法的收敛性
  • adagrad的收敛性优于sgd,即使初始值过大或者过小,收敛性依然很好
  • 证明收敛性在真实和虚构的数据集上均有很好的表现,针对不同的b0初始值有很强的鲁棒性

2 Gradient Descent Finds Global Minima of Deep Neural Networks
https://arxiv.org/pdf/1811.03804.pdf
本文主要证明了梯度下降法可以在过拟合的 ResNet 上以多项式时间找到最优点,使损失方程值达到零。全局最优点由格拉姆矩阵(Gram matrix)的稳定性证明。在深度残余卷积神经网络(deep residual CNN)的应用上,梯度下降依然可以优化至全局最优解,且损失函数为零
本文证明了随机初始化的梯度下降可以使得损失函数降为0,针对所有 1)局部最优点即为全局最优点的,2)每一个鞍点都有负曲率的方程,梯度下降法可以成功找到全局最优解 [1][2][3][4]
3 Adaptive Stochastic Natural Gradient Method for One-Shot Neural Architecture Search
NAS针对学习率和搜索空间有很强敏感性,以至于使用者很难将之运用到某一个特殊问题,尽管搜索的方法是将参数调整自动化,文章将随机松弛将链接权重和神经结构的耦合优化转化为可微分优化,广泛的适用性在于他接受任意的搜索空间,其速度在于能够同步优化梯度的权重和构架,鲁棒性在于自适应的学习率有很强的理论支持。文中的方法简单泛化性好,在图像分类和修复中表现接近最先进技术的性能并使用极低的计算预算。
NAS的研究主要有三个方向,1 如何估计框架的结构,2,如何定义搜索空间,3如何优化结构
优化可以通过连续松弛或随机松弛将权重和构架的耦合优化转化为可微分目标的优化,采用梯度下降和熙然梯度下降策略,采用现有的自适应步长机制或恒定步长可以同时优化网路权重和结构,但是优化性能对于输入是非常敏感的例如学习了和搜索空间。
本文开发了ASNG,采用了步长适应机制,来近似满足此条件,显著的降低了构架对于输入的敏感性,使得整个框架更加灵活,
章的主要贡献包括以下几点:

提供了一个几乎可以处理任意类型结构变量的架构,只要可以在其上定义一个参数组的概率分布

文章提出了针对于随机自然梯度上升法制定了步长自适应的机制,提高了优化速度和超参调整的鲁棒性,并为所有引入的超参数准备了默认值,即使架构搜索空间发生变化也无需改变它们

所提出的方法可以并行运算,它与现有方法的速度相当甚至更快,即使是在串行实现上也是如此

提出的策略非常简单,所以可以很好的开发步长自适应机制

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章