【deeplearning基礎知識】Momentum優化是如何計算的

mini-batch SGD訓練算法的問題:1)雖然能夠帶來很好的訓練速度,但是在到達最優點的時候並不能夠總是真正到達最優點,而是在最優點附近徘徊容易產生一些震盪

2)採用小的學習率的時候,會導致網絡在訓練的時候收斂太慢;當我們採用大的學習率的時候,會導致在訓練過程中優化的幅度跳過函數的範圍,也就是可能跳過最優點。

Momentum方法:能夠很好的解決SGD中上面的兩個問題。

SGD更新參數的方式:參數等於上次的值,減去學習率*梯度。

Momentum更新參數的方式:

第一步:先計算動量的速度,Vdw等於上一次的值和梯度dW共同計算得到,其中取值一般爲0.9。

第二步: 更新參數W,這裏的才爲學習率。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章