深度学习模型中的学习率调整

非常关键------------------深度学习模型中的学习率调整

学习率对于深度学习是一个重要的超参数，它控制着基于损失梯度调整神经网络权值的速度，大多数优化算法（SGD、RMSprop、Adam）对其都有所涉及。学习率越小，损失梯度下降的速度越慢，收敛的时间更长，如公式所示：

new_weight= existing_weight — learning_rate * gradient

(新权值 = 当前权值 – 学习率 × 梯度)

如果学习率过小，梯度下降很慢，如果学习率过大，如Andrew Ng的Stanford公开课程所说梯度下降的步子过大可能会跨过最优值。不同的学习率对loss的影响如下图所示：

学习率的调整方法：

1、从自己和其他人一般的经验来看，学习率可以设置为3、1、0.5、0.1、0.05、0.01、0.005，0.005、0.0001、0.00001具体需结合实际情况对比判断，小的学习率收敛慢，但能将loss值降到更低。

2、根据数据集的大小来选择合适的学习率，当使用平方和误差作为成本函数时，随着数据量的增多，学习率应该被设置为相应更小的值（从梯度下降算法的原理可以分析得出）。另一种方法就是，选择不受数据集大小影响的成本函数-均值平方差函数。

3、训练全过程并不是使用一个固定值的学习速度，而是随着时间的推移让学习率动态变化，比如刚开始训练，离下山地点的最优值还很远，那么可以使用较大的学习率下的快一点，当快接近最优值时为避免跨过最优值，下山速度要放缓，即应使用较小学习率训练，具体情况下因为我们也不知道训练时的最优值，所以具体的解决办法是：在每次迭代后，使用估计的模型的参数来查看误差函数的值，如果相对于上一次迭代，错误率减少了，就可以增大学习率如果相对于上一次迭代，错误率增大了，那么应该重新设置上一轮迭代的值，并且减少学习率到之前的50%。因此，这是一种学习率自适应调节的方法。在Caffe、Tensorflow等深度学习框架中都有很简单直接的学习率动态变化设置方法

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

深度学习模型中的学习率调整

非常关键------------------深度学习模型中的学习率调整

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU启动那些事（12.A）- uSDHC eMMC启动时间(RT1170)

GPT-4o 引领人机交互新风向，向量数据库赛道沸腾了

企业大模型如何成为自己数据的“百科全书”？

本地SSL证书过期输入命令在IIS自动生成

基于Ubuntu-22.04安装K8s-v1.28.2实验（二）使用kube-vip实现集群VIP访问

.NET周刊【5月第2期 2024-05-12】

ACM 下會議的最新Latex模板的使用方法和投稿注意事項

深度學習模型中的學習率調整

Tanh,Sigmoid 和Relu 激活函數使用介紹

init.xavier_uniform（）的用法

Latex中轉置矩陣的轉置符號的書寫

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結