最優化理論-2-梯度下降法

梯度法分類

在這裏插入圖片描述

上升與下降方向

大家應該都聽過最陡梯度下降法。首先,“陡”與方向有關,既然是最陡,就存在不那麼“陡”的方向。在介紹最陡梯度下降法之前,先了解一下下降方向。這個時候高中學的地理知識可發揮用場了,“等高線”可以刻畫一座山的大概海拔高度。在這裏,等高線的中心,那個最高的地方,就是我們所要的最優值。

我們如果要最快到達山頂,肯定是當前位置與山頂的連線方向距離最短。在現實生活中,如果是一座很高的山,傻子纔會直接爬,都是走盤山公路。爲什麼? 那麼陡怎麼爬!對了

在等高線中,梯度就是導數變化最快的方向,也就是“最陡”的方向。其方向若靠近中心點,就是下降,遠離就是上升。
在這裏插入圖片描述

最陡下降法

但是,一般等高線不是由許多同心圓組成的,而且等高線哥哥各個地方之間的距離變化。如下圖,從dkd_k按照最陡下降方向到了dk+1d_{k+1},若仍然按照此方向繼續下降,是得不到最優解,跑飛了!這說明,要把握一個度,就是你走路不要走得太快了!用什麼控制速度,當然是放慢步伐,邁小一點步子。這就是靠步長,也稱學習率,來控制啦!

因此我們到了dk+1d_{k+1}就停下來,再朝梯度最陡峭的方向前進!由此可見,每次改變方向,兩個方向的夾角都是垂直的!到了最後越靠近中心,我們越要邁更小的步伐,學習率也要更小。在確定學習率的時候,就可以用到前面介紹的線搜法。因此越接近中心點,收斂會越來越慢。如果不用線搜法確定學習率,而是採用固定的步長,在接近中心的時候就會產生震盪。

在訓練一個深度神經網絡的時候,有很多學習率調整策略,隨着訓練輪數的增加,學習率也會下降。
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章