Introduction
學習率 (learning rate),控制 模型的 學習進度 :
lr 即 stride (步長) ,即反向傳播算法中的 η :
學習率大小
學習率 大 | 學習率 小 | |
學習速度 | 快 | 慢 |
使用時間點 | 剛開始訓練時 | 一定輪數過後 |
副作用 | 1.易損失值爆炸;2.易振盪。 | 1.易過擬合;2.收斂速度慢。 |
學習率設置
在訓練過程中,一般根據訓練輪數設置動態變化的學習率。
剛開始訓練時:學習率以 0.01 ~ 0.001 爲宜。
一定輪數過後:逐漸減緩。
接近訓練結束:學習速率的衰減應該在100倍以上。
Note:
如果是 遷移學習 ,由於模型已在原始數據上收斂,此時應設置較小學習率 (≤10−4≤10−4) 在新數據上進行 微調 。
學習率減緩機制
輪數減緩 | 指數減緩 | 分數減緩 | |
英文名 | step decay | exponential decay | 1/t decay |
方法 | 每N輪學習率減半 | 學習率按訓練輪數增長指數插值遞減 | ,k 控制減緩幅度,t 爲訓練輪數 |
把脈 目標函數損失值 曲線
理想情況下 曲線 應該是 滑梯式下降 [綠線]
:
- 曲線 初始時 上揚 [紅線]:
Solution:初始 學習率過大 導致 振盪,應減小學習率,並 從頭 開始訓練 。
- 曲線 初始時 強勢下降 沒多久 歸於水平 [紫線]:
Solution:後期 學習率過大 導致 無法擬合,應減小學習率,並 重新訓練 後幾輪 。
- 曲線 全程緩慢 [黃線]:
Solution:初始 學習率過小 導致 收斂慢,應增大學習率,並 從頭 開始訓練 。
參考:
[1] 解析卷積神經網絡—深度學習實踐手冊
[2] 調整學習速率以優化神經網絡訓練
[3] 如何找到最優學習率
轉自: