caffe詳解之激活函數層

激活函數參數配置

在激活層中，對輸入數據進行激活操作,是逐元素進行運算的,在運算過程中，沒有改變數據的大小，即輸入和輸出的數據大小是相等的。神經網絡中激活函數的主要作用是提供網絡的非線性建模能力，如不特別說明，激活函數一般而言是非線性函數。假設一個示例神經網絡中僅包含線性卷積和全連接運算，那麼該網絡僅能夠表達線性映射，即便增加網絡的深度也依舊還是線性映射，難以有效建模實際環境中非線性分佈的數據。加入（非線性）激活函數之後，深度神經網絡才具備了分層的非線性映射學習能力。因此，激活函數是深度神經網絡中不可或缺的部分。

layer {
  name: "test"
  bottom: "conv"
  top: "test"
  type: "ReLU" #激活函數類型
}

常用激活函數總結

首先推薦一個常用激活函數可視化項目
visualising activation functions in neural networks (https://dashee87.github.io/data%20science/deep%20learning/visualising-activation-functions-in-neural-networks/)

Step

激活函數 Step 更傾向於理論而不是實際，它模仿了生物神經元要麼全有要麼全無的屬性。它無法應用於神經網絡，因爲其導數是 0（除了零點導數無定義以外），這意味着基於梯度的優化方法並不可行。

Identity

通過激活函數 Identity，節點的輸入等於輸出。它完美適合於潛在行爲是線性（與線性迴歸相似）的任務。當存在非線性，單獨使用該激活函數是不夠的，但它依然可以在最終輸出節點上作爲激活函數用於迴歸任務。

ReLU

修正線性單元（Rectified linear unit，ReLU）是神經網絡中最常用的激活函數。它保留了 step 函數的生物學啓發（只有輸入超出閾值時神經元才激活），不過當輸入爲正的時候，導數不爲零，從而允許基於梯度的學習（儘管在 x=0 的時候，導數是未定義的）。使用這個函數能使計算變得很快，因爲無論是函數還是其導數都不包含複雜的數學運算。然而，當輸入爲負值的時候，ReLU 的學習速度可能會變得很慢，甚至使神經元直接無效，因爲此時輸入小於零而梯度爲零，從而其權重無法得到更新，在剩下的訓練過程中會一直保持靜默。

Leaky ReLU

經典（以及廣泛使用的）ReLU 激活函數的變體，帶泄露修正線性單元（Leaky ReLU）的輸出對負值輸入有很小的坡度。由於導數總是不爲零，這能減少靜默神經元的出現，允許基於梯度的學習（雖然會很慢）。

PReLU

參數化修正線性單元（Parameteric Rectified Linear Unit，PReLU）屬於 ReLU 修正類激活函數的一員。它和 RReLU 以及 Leaky ReLU 有一些共同點，即爲負值輸入添加了一個線性項。而最關鍵的區別是，這個線性項的斜率實際上是在模型訓練中學習到的。

RReLU

隨機帶泄露的修正線性單元（Randomized Leaky Rectified Linear Unit，RReLU）也屬於 ReLU 修正類激活函數的一員。和 Leaky ReLU 以及 PReLU 很相似，爲負值輸入添加了一個線性項。而最關鍵的區別是，這個線性項的斜率在每一個節點上都是隨機分配的（通常服從均勻分佈）。

ELU

指數線性單元（Exponential Linear Unit，ELU）也屬於 ReLU 修正類激活函數的一員。和 PReLU 以及 RReLU 類似，爲負值輸入添加了一個非零輸出。和其它修正類激活函數不同的是，它包括一個負指數項，從而防止靜默神經元出現，導數收斂爲零，從而提高學習效率。

SELU

擴展指數線性單元（Scaled Exponential Linear Unit，SELU）是激活函數指數線性單元（ELU）的一個變種。其中λ和α是固定數值（分別爲 1.0507 和 1.6726）。這些值背後的推論（零均值/單位方差）構成了自歸一化神經網絡的基礎（SNN）。

SReLU

S 型整流線性激活單元（S-shaped Rectified Linear Activation Unit，SReLU）屬於以 ReLU 爲代表的整流激活函數族。它由三個分段線性函數組成。其中兩種函數的斜度，以及函數相交的位置會在模型訓練中被學習。

Sigmoid

Sigmoid 因其在 logistic 迴歸中的重要地位而被人熟知，值域在 0 到 1 之間。Logistic Sigmoid（或者按通常的叫法，Sigmoid）激活函數給神經網絡引進了概率的概念。它的導數是非零的，並且很容易計算（是其初始輸出的函數）。然而，在分類任務中，sigmoid 正逐漸被 Tanh 函數取代作爲標準的激活函數，因爲後者爲奇函數（關於原點對稱）。

Hard Sigmoid

Hard Sigmoid 是 Logistic Sigmoid 激活函數的分段線性近似。它更易計算，這使得學習計算的速度更快，儘管首次派生值爲零可能導致靜默神經元/過慢的學習速率（詳見 ReLU）。

Tanh

在分類任務中，雙曲正切函數（Tanh）逐漸取代 Sigmoid 函數作爲標準的激活函數，其具有很多神經網絡所鍾愛的特徵。它是完全可微分的，反對稱，對稱中心在原點。爲了解決學習緩慢和/或梯度消失問題，可以使用這個函數的更加平緩的變體（log-log、softsign、symmetrical sigmoid 等等）

Hard Tanh

Hard Tanh 是 Tanh 激活函數的線性分段近似。相較而言，它更易計算，這使得學習計算的速度更快，儘管首次派生值爲零可能導致靜默神經元/過慢的學習速率（詳見 ReLU）。

LeCun Tanh

LeCun Tanh（也被稱作 Scaled Tanh）是 Tanh 激活函數的擴展版本。它具有以下幾個可以改善學習的屬性：f(± 1) = ±1；二階導數在 x=1 最大化；且有效增益接近 1。

ArcTan

視覺上類似於雙曲正切（Tanh）函數，ArcTan 激活函數更加平坦，這讓它比其他雙曲線更加清晰。在默認情況下，其輸出範圍在-π/2 和π/2 之間。其導數趨向於零的速度也更慢，這意味着學習的效率更高。但這也意味着，導數的計算比 Tanh 更加昂貴。

Softsign

Softsign 是 Tanh 激活函數的另一個替代選擇。就像 Tanh 一樣，Softsign 是反對稱、去中心、可微分，並返回-1 和 1 之間的值。其更平坦的曲線與更慢的下降導數表明它可以更高效地學習。另一方面，導數的計算比 Tanh 更麻煩。

SoftPlus

作爲 ReLU 的一個不錯的替代選擇，SoftPlus 能夠返回任何大於 0 的值。與 ReLU 不同，SoftPlus 的導數是連續的、非零的，無處不在，從而防止出現靜默神經元。然而，SoftPlus 另一個不同於 ReLU 的地方在於其不對稱性，不以零爲中心，這興許會妨礙學習。此外，由於導數常常小於 1，也可能出現梯度消失的問題。

Signum

激活函數 Signum（或者簡寫爲 Sign）是二值階躍激活函數的擴展版本。它的值域爲 [-1,1]，原點值是 0。儘管缺少階躍函數的生物動機，Signum 依然是反對稱的，這對激活函數來說是一個有利的特徵。

Bent Identity

激活函數 Bent Identity 是介於 Identity 與 ReLU 之間的一種折衷選擇。它允許非線性行爲，儘管其非零導數有效提升了學習並克服了與 ReLU 相關的靜默神經元的問題。由於其導數可在 1 的任意一側返回值，因此它可能容易受到梯度爆炸和消失的影響。

Symmetrical Sigmoid

Symmetrical Sigmoid 是另一個 Tanh 激活函數的變種（實際上，它相當於輸入減半的 Tanh）。和 Tanh 一樣，它是反對稱的、零中心、可微分的，值域在 -1 到 1 之間。它更平坦的形狀和更慢的下降派生表明它可以更有效地進行學習。

Log Log

Log Log 激活函數（由上圖 f(x) 可知該函數爲以 e 爲底的嵌套指數函數）的值域爲 [0,1]，Complementary Log Log 激活函數有潛力替代經典的 Sigmoid 激活函數。該函數飽和地更快，且零點值要高於 0.5。

Gaussian

高斯激活函數（Gaussian）並不是徑向基函數網絡（RBFN）中常用的高斯核函數，高斯激活函數在多層感知機類的模型中並不是很流行。該函數處處可微且爲偶函數，但一階導會很快收斂到零。

Absolute

顧名思義，絕對值（Absolute）激活函數返回輸入的絕對值。該函數的導數除了零點外處處有定義，且導數的量值處處爲 1。這種激活函數一定不會出現梯度爆炸或消失的情況。

Sinusoid

如同餘弦函數，Sinusoid（或簡單正弦函數）激活函數爲神經網絡引入了週期性。該函數的值域爲 [-1,1]，且導數處處連續。此外，Sinusoid 激活函數爲零點對稱的奇函數。

Cos

如同正弦函數，餘弦激活函數（Cos/Cosine）爲神經網絡引入了週期性。它的值域爲 [-1,1]，且導數處處連續。和 Sinusoid 函數不同，餘弦函數爲不以零點對稱的偶函數。

Sinc

Sinc 函數（全稱是 Cardinal Sine）在信號處理中尤爲重要，因爲它表徵了矩形函數的傅立葉變換（Fourier transform）。作爲一種激活函數，它的優勢在於處處可微和對稱的特性，不過它比較容易產生梯度消失的問題。

參考

從ReLU到Sinc，26種神經網絡激活函數可視化
visualising activation functions in neural networks