2.淺層神經網絡

對於單張圖片,a0作爲一個列向量,輸入:

表達了這個圖片(列向量),在不同的 權重組(橫向)的匹配下,不同的激活值activation

對於M張圖片,X作爲一個矩陣,輸入:

其他的激活函數

sigmoid函數:
這裏寫圖片描述 導數:這裏寫圖片描述


特點是其值域爲(0,1),可以作爲二分類最後一層的輸出


tanh函數:
這裏寫圖片描述導數:這裏寫圖片描述


其值域爲(-1,+1),均值接近0均值,效果要優於sigmoid,

 

缺點:當z特別大或者特別小的時候,導數的梯度和斜率就會接近0,降低梯度下降的速度。


Relu函數:
這裏寫圖片描述導數:這裏寫圖片描述


修正線性單元,當z大於0時斜率爲固定值1,當z=0時,z可以取[0,1]的任意值,當z小於0時,導數爲0。

不會產生梯度消失的情況,但是進入負半區的時候則會產生死單元。

由於偏置量b的存在,則一般不會使其進入負半區。

爲什麼需要非線性的激活函數

 如果用線性的激活函數:

哪怕一萬層,也是線性的。

如果用非線性的激活函數:

用激活函數套在前面的線性函數外面,那麼整個函數就變成了非線性函數了。
非線性函數可以表示曲線,而且神經網絡的層次越多(疊加起來的非線性函數越多),所表示的曲線就越複雜。也就是說只要神經網絡的層次足夠多那麼就可以解決任何問題。

多層,如何前向傳播

多層,如何反向傳播

對於w2:

與L相鄰,直接計算偏導數,沒什麼好說

對於w1:

神經網絡的偏導數是相對於損失函數L來計算的。
第二層:與損失函數直接相鄰,所以我們就可以直接計算它的偏導數。
第一層:與損失函數沒有直接的聯繫,所以我們只能通過鏈式法則來計算

回顧之前單層:

多層:

對w1 b1的偏導數:

向量化:

隨機初始權重:

初始w,不能全是0

否則第一層計算出每個a都是0,反向傳播時,也會出問題

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章