梯度消失研究記錄

1,sigmoid函數

f`(g(x))=f`(g)*g`(x)

若其中g`(x)小於1大於0,則每經過一層都會導致權重乘以一個小數,因此層數變多後會導致權重消失。

2,relu

relu`(x)=x若x大於0,x小於0則等於0

假設輸入均值是1,簡化問題認爲輸入都是1或有一半是1,其餘是0.而w都是小數,則其輸出結果依據w方差和輸入的數目成比例增加或減少。

因此假如核太多並且沒有歸一化可能會導致輸出結果隨層數快速增加。可以考慮採用歸一化手段, 如cnn中的local normalization。

relu假如讓w均值爲0,會導致輸出百分之50概率是0,因此會導致本層一半的輸出是0。

求導的話就是一路乘其路徑上的權重。權重有可能是正或負,但權重是小數也會每層縮小梯度,最後乘以本次輸入的x值。因此每隔多少層造一個輸出,然後製造一個誤差傳過去進行訓練。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章