目錄
1.學習率的作用
梯度下降法是一個廣泛被用來最小化模型誤差的參數優化算法。梯度下降法通過多次迭代,並在每一步中最小化成本函數(cost 來估計模型的參數。學習率 (learning rate),在迭代過程中會控制模型的學習進度。
在梯度下降法中,都是給定的統一的學習率,整個優化過程中都以確定的步長進行更新, 在迭代優化的前期中,學習率較大,則前進的步長就會較長,這時便能以較快的速度進行梯度下降,而在迭代優化的後期,逐步減小學習率的值,減小步長,這樣將有助於算法的收斂,更容易接近最優解。故而如何對學習率的更新成爲了研究者的關注點。 在模型優化中,常用到的幾種學習率衰減方法有:分段常數衰減、多項式衰減、指數衰減、自然指數衰減、餘弦衰減、線性餘弦衰減、噪聲線性餘弦衰減
2.學習率衰減常用參數有哪些
參數名稱 | 參數說明 |
---|---|
learning_rate | 初始學習率 |
global_step | 用於衰減計算的全局步數,非負,用於逐步計算衰減指數 |
decay_steps | 衰減步數,必須是正值,決定衰減週期 |
decay_rate | 衰減率 |
end_learning_rate | 最低的最終學習率 |
cycle | 學習率下降後是否重新上升 |
alpha | 最小學習率 |
num_periods | 衰減餘弦部分的週期數 |
initial_variance | 噪聲的初始方差 |
variance_decay | 衰減噪聲的方差 |
3.常見衰減函數
3.1分段常數衰減
3.2指數衰減
綠色的爲學習率隨 訓練次數的指數衰減方式,紅色的即爲分段常數衰減,它在一定的訓練區間內保持學習率不變。
3.3自然指數衰減
分段常數衰減、指數衰減、自然指數衰減三種方式的對比圖,紅色的即爲分段常數衰減圖,階梯型曲線。藍色線爲指數衰減圖,綠色即爲自然指數衰減圖,很明可以看到自然指數衰減方式下的學習率衰減程度要大於一般指數衰減方式,有助於更快的收斂
3.4多項式衰減
紅色線代表學習率降低至最低後,一直保持學習率不變進行更新,綠色線代表學習率衰減到最低後,又會再次循環往復的升高降低。
3.5餘弦衰減
紅色即爲標準的餘弦衰減曲線,學習率從初始值下降到最低學習率後保持不變。藍色的線是線性餘弦衰減方式曲線,它是學習率從初始學習率以線性的方式下降到最低學習率值。綠色噪聲線性餘弦衰減方式。