TASK03:梯度

Task03:梯度消失和爆炸

梯度消失和梯度爆炸:
    深度模型有關數值穩定性的典型問題是梯度消失和梯度爆炸。當神經網絡的層數較多時,模型的數值穩定性更容易變差。層數較多時,梯度的計算也容易出現消失或爆炸。 梯度消失是因爲隨着網絡深度的加深,網絡反向傳播的小於1的導數經過逐層累積而導致其越靠近輸入層,其值越小,因此靠近輸入層的權值更新就會非常緩慢甚至停滯不前,那麼網絡深度的加深就失去了其意義,網絡只等價於後面基層淺層網絡的學習。梯度爆炸一般出現深層網絡和權值初始化值太大的情況下。隨着網絡的深度的加深,大於1的導數經過逐層累積,變得非常大,梯度值太大,會導致權值瞬間跳躍,指向不應該指向的位置,導致訓練收斂緩慢,甚至陷入局部最小值。
 
隨機初始化模型參數:
    在神經網絡中,需要隨機初始化參數。因爲,神經網絡模型在層之間各個單元具有對稱性。否則會出錯。若將每個隱藏單元參數都初始化爲相等的值,則在正向傳播時每個隱藏單元將根據相同的輸入計算出相同的值,並傳遞至輸出層。在反向傳播中,每個隱藏單元的參數梯度相等。因此,這些參數在使用基於梯度的優化算法迭代後值依然相等。之後的迭代亦是如此。 據此,無論隱藏單元有幾個,隱藏層本質上只有一個隱藏單元在發揮作用。所以,通常將神經網絡的模型參數,進行隨機初始化以避免上述問題。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章