原创 4種梯度下降的變種優化算法的拙見:Adagrad、RMSprop、Momentum、Adam(原創)

一、算法簡述 Momentum(動量法):模擬物理動量的概念,積累之前的動量來替代真正的梯度 Adagrad(Adaptive Gradient):每個參數反比於歷史梯度平方總和的平方根 RMSprop(Root Mean Sq