關於深度學習學習率調整的心得【無病呻吟】

最近在研究姿態估計方面的內容。這個task數據量比較大,實驗室的四路TITAN XP也只能用小batch運行,
並且要跑好幾天(我在想原文是不是都是四路特斯拉跑的)。

爲了克服設備的困難,最近關於學習率方面有一些心得。
我的調參哲學大概是先給一個特別大的學習率(大到模型只要不崩就行),跑一百多epoch,看一下大概什麼位置比較好;
(跑的過程中可以存下效果top5的模型,用作後續的pre-train)
有了大概的瞭解之後,將學習率逐步進行decay,以對模型進行微調。

模型學習要先得到一個大方向,大方向對了才能談小節,人生又何嘗不是如此。
在此與猿友共勉,願大家都能找到適合自己的那個gradient。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章