梯度法分類
上升與下降方向
大家應該都聽過最陡梯度下降法。首先,“陡”與方向有關,既然是最陡,就存在不那麼“陡”的方向。在介紹最陡梯度下降法之前,先了解一下下降方向。這個時候高中學的地理知識可發揮用場了,“等高線”可以刻畫一座山的大概海拔高度。在這裏,等高線的中心,那個最高的地方,就是我們所要的最優值。
我們如果要最快到達山頂,肯定是當前位置與山頂的連線方向距離最短。在現實生活中,如果是一座很高的山,傻子纔會直接爬,都是走盤山公路。爲什麼? 那麼陡怎麼爬!對了
在等高線中,梯度就是導數變化最快的方向,也就是“最陡”的方向。其方向若靠近中心點,就是下降,遠離就是上升。
最陡下降法
但是,一般等高線不是由許多同心圓組成的,而且等高線哥哥各個地方之間的距離變化。如下圖,從按照最陡下降方向到了,若仍然按照此方向繼續下降,是得不到最優解,跑飛了!這說明,要把握一個度,就是你走路不要走得太快了!用什麼控制速度,當然是放慢步伐,邁小一點步子。這就是靠步長,也稱學習率,來控制啦!
因此我們到了就停下來,再朝梯度最陡峭的方向前進!由此可見,每次改變方向,兩個方向的夾角都是垂直的!到了最後越靠近中心,我們越要邁更小的步伐,學習率也要更小。在確定學習率的時候,就可以用到前面介紹的線搜法。因此越接近中心點,收斂會越來越慢。如果不用線搜法確定學習率,而是採用固定的步長,在接近中心的時候就會產生震盪。
在訓練一個深度神經網絡的時候,有很多學習率調整策略,隨着訓練輪數的增加,學習率也會下降。