最近在研究姿態估計方面的內容。這個task數據量比較大,實驗室的四路TITAN XP也只能用小batch運行,
並且要跑好幾天(我在想原文是不是都是四路特斯拉跑的)。
爲了克服設備的困難,最近關於學習率方面有一些心得。
我的調參哲學大概是先給一個特別大的學習率(大到模型只要不崩就行),跑一百多epoch,看一下大概什麼位置比較好;
(跑的過程中可以存下效果top5的模型,用作後續的pre-train)
有了大概的瞭解之後,將學習率逐步進行decay,以對模型進行微調。
模型學習要先得到一個大方向,大方向對了才能談小節,人生又何嘗不是如此。
在此與猿友共勉,願大家都能找到適合自己的那個gradient。