第二節 深度神經網絡中的激活函數
問題1:常用激活函數及導數
- 多層神經網絡相當於一層,因此每層後面添加一個激活函數
- sigmod、tanh、ReLu的原函數和導函數(其中,tanh(x)=2*sigmod(2x)-1)
問題2:爲什麼sigmod和tanh導致梯度消失?
- 它倆的導數在變量x極大或者極小時趨於0,
問題3:ReLu系列激活函數相對sigmod和tanh的優點,侷限及改進
優點:
- Relu不需要計算指數,只要一個閾值
- Relu的非飽和性解決梯度消失,有較寬的激活邊界
ReLu的單側抑制提供了網絡的稀疏表達能力(不懂)
侷限:ReLu在訓練中導致神經元死亡,導致負梯度在經過該ReLu單元時被置爲0(爲什麼是梯度?反向傳播計算梯度時?梯度一直爲0?)- 學習率設置過大也會導致一定比例神經元死亡
- ReLu變種 leaky ReLu,小於0時,f(x)= a * x
- 參數化的ReLu,PReLu,將參數a同網絡中參數一起優化
- LReLu,a滿足某個分佈,從中隨機採樣,一定程度上起到正則化作用。
第三節 多層感知機的反向傳播算法
問題1:多層感知機的平方誤差和交叉熵損失函數
- 損失函數,代價函數,目標函數的區別:損失函數時一個樣本的損失,代價函數是整體的損失,是損失函數的平均,目標函數,是最終要優化的函數=cost function+正則化項
- 損失函數(Loss Function )是定義在單個樣本上的,算的是一個樣本的誤差。
- 代價函數(Cost Function )是定義在整個訓練集上的,是所有樣本誤差的平均,也就是損失函數的平均。
- 目標函數(Object Function)定義爲:最終需要優化的函數。等於經驗風險+結構風險(也就是Cost Function + 正則化項)。參考
- 需要記住背寫平方誤差、交叉熵損失和多分類的損失函數。