smoothL1 loss不用L1 loss和L2 LOSS

为了从两个方面限制梯度:

    当预测框与 ground truth 差别过大时,梯度值不至于过大;
    当预测框与 ground truth 差别很小时,梯度值足够小。

考察如下几种损失函数,其中 x 为预测框与 groud truth 之间 elementwise 的差异:

 

损失函数对 x 的导数分别为:

 

观察 (4),当 x 增大时 L2 损失对 x 的导数也增大。这就导致训练初期,预测值与 groud truth 差异过于大时,损失函数对预测值的梯度十分大,训练不稳定。

根据方程 (5),L1 对 x 的导数为常数。这就导致训练后期,预测值与 ground truth 差异很小时, L1 损失对预测值的导数的绝对值仍然为 1,而 learning rate 如果不变,损失函数将在稳定值附近波动,难以继续收敛以达到更高精度。

最后观察 (6), smoothL1 在 x 较小时,对 x 的梯度也会变小,而在 x 很大时,对 x 的梯度的绝对值达到上限 1,也不会太大以至于破坏网络参数。 smoothL1 完美地避开了 L1 和 L2 损失的缺陷。其函数图像如下:

由图中可以看出,它在远离座标原点处,图像和 L1 loss 很接近,而在座标原点附近,转折十分平滑,不像 L1 loss 有个尖角,因此叫做 smooth L1 loss。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章