最優化理論-2-梯度下降法

原創

Titus_1996

2020-06-22 11:56

梯度法分類

上升與下降方向

大家應該都聽過最陡梯度下降法。首先，“陡”與方向有關，既然是最陡，就存在不那麼“陡”的方向。在介紹最陡梯度下降法之前，先了解一下下降方向。這個時候高中學的地理知識可發揮用場了，“等高線”可以刻畫一座山的大概海拔高度。在這裏，等高線的中心，那個最高的地方，就是我們所要的最優值。

我們如果要最快到達山頂，肯定是當前位置與山頂的連線方向距離最短。在現實生活中，如果是一座很高的山，傻子纔會直接爬，都是走盤山公路。爲什麼? 那麼陡怎麼爬！對了

在等高線中，梯度就是導數變化最快的方向，也就是“最陡”的方向。其方向若靠近中心點，就是下降，遠離就是上升。

最陡下降法

但是，一般等高線不是由許多同心圓組成的，而且等高線哥哥各個地方之間的距離變化。如下圖，從 $d_k$ 按照最陡下降方向到了 $d_{k+1}$ ，若仍然按照此方向繼續下降，是得不到最優解，跑飛了！這說明，要把握一個度，就是你走路不要走得太快了！用什麼控制速度，當然是放慢步伐，邁小一點步子。這就是靠步長，也稱學習率，來控制啦！

因此我們到了 $d_{k+1}$ 就停下來，再朝梯度最陡峭的方向前進！由此可見，每次改變方向，兩個方向的夾角都是垂直的！到了最後越靠近中心，我們越要邁更小的步伐，學習率也要更小。在確定學習率的時候，就可以用到前面介紹的線搜法。因此越接近中心點，收斂會越來越慢。如果不用線搜法確定學習率，而是採用固定的步長，在接近中心的時候就會產生震盪。

在訓練一個深度神經網絡的時候，有很多學習率調整策略，隨着訓練輪數的增加，學習率也會下降。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

最優化理論-2-梯度下降法

梯度法分類

上升與下降方向

最陡下降法

最優化理論-線搜法(Line Search Methods)

理解ADMM, ALF和Split Bregman

最優化理論-2-梯度下降法

最優化理論3-牛頓法

接收字符串

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結