PReLU簡介
PReLU(Parametric Rectified Linear Unit), 顧名思義:帶參數的ReLU。二者的定義和區別如下圖:
如果ai=0,那麼PReLU退化爲ReLU;如果ai是一個很小的固定值(如ai=0.01),則PReLU退化爲Leaky ReLU(LReLU)。 有實驗證明,與ReLU相比,LReLU對最終的結果幾乎沒什麼影響。
PReLU的幾點說明
(1) PReLU只增加了極少量的參數,也就意味着網絡的計算量以及過擬合的危險性都只增加了一點點。特別的,當不同channels使用相同的ai時,參數就更少了。
(2) BP更新ai時,採用的是帶動量的更新方式,如下圖:
上式的兩個係數分別是動量和學習率。
需要特別注意的是:更新ai時不施加權重衰減(L2正則化),因爲這會把ai很大程度上push到0。事實上,即使不加正則化,試驗中ai也很少有超過1的。
(3)常初始化爲0.25。