(1)防止過擬合。Relu會使一部分神經元的輸出爲0,這樣就造成了網絡的稀疏性,並且減少了參數的相互依存關係,緩解了過擬合問題的發生。
(2)可以實現深層網絡的訓練。對於深層網絡,sigmoid函數反向傳播時,很容易就會出現梯度消失的情況,在sigmoid接近飽和區時,變換太緩慢,導數趨於0,這種情況會造成信息丟失,從而無法完成深層網絡的訓練。
(3)計算量小,加速網絡的訓練。採用tanh、sigmoid等函數,計算激活函數時,指數運算計算量大,反向傳播求誤差梯度時,求導涉及除法,計算量相對大,而採用Relu激活函數,整個過程的計算量節省很多。