第九章 前向神經網絡

第二節 深度神經網絡中的激活函數

問題1:常用激活函數及導數

  • 多層神經網絡相當於一層,因此每層後面添加一個激活函數
  • sigmod、tanh、ReLu的原函數和導函數(其中,tanh(x)=2*sigmod(2x)-1)

問題2:爲什麼sigmod和tanh導致梯度消失?

  • 它倆的導數在變量x極大或者極小時趨於0,

問題3:ReLu系列激活函數相對sigmod和tanh的優點,侷限及改進

優點:

  • Relu不需要計算指數,只要一個閾值
  • Relu的非飽和性解決梯度消失,有較寬的激活邊界
  • ReLu的單側抑制提供了網絡的稀疏表達能力 (不懂)
    侷限:
  • ReLu在訓練中導致神經元死亡,導致負梯度在經過該ReLu單元時被置爲0 (爲什麼是梯度?反向傳播計算梯度時?梯度一直爲0?)
  • 學習率設置過大也會導致一定比例神經元死亡
  • ReLu變種 leaky ReLu,小於0時,f(x)= a * x
  • 參數化的ReLu,PReLu,將參數a同網絡中參數一起優化
  • LReLu,a滿足某個分佈,從中隨機採樣,一定程度上起到正則化作用。

第三節 多層感知機的反向傳播算法

問題1:多層感知機的平方誤差和交叉熵損失函數

  • 損失函數,代價函數,目標函數的區別:損失函數時一個樣本的損失,代價函數是整體的損失,是損失函數的平均,目標函數,是最終要優化的函數=cost function+正則化項
  • 損失函數(Loss Function )是定義在單個樣本上的,算的是一個樣本的誤差。
  • 代價函數(Cost Function )是定義在整個訓練集上的,是所有樣本誤差的平均,也就是損失函數的平均。
  • 目標函數(Object Function)定義爲:最終需要優化的函數。等於經驗風險+結構風險(也就是Cost Function + 正則化項)。參考
  • 需要記住背寫平方誤差、交叉熵損失和多分類的損失函數。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章