lecture4,backpropagation and nerual network

1,computational graphs,一系列簡單的計算過程組成的一張圖,易於求導(理論指導爲鏈式法則)

a,. feedward

b,backward:前一個輸入當作未知數求導,因爲前一個輸入包含着與未知數w的關係。即dydw=dydf(x).df(x)dx ,f(x)視爲前一個輸入。
所以

  1. 1.37下面應該爲 11.372=0.53
  2. 將1.37視爲output,對於0.37的倒數爲1,所以0.37下面爲-0.53*1 = -0.53
  3. -1.00下面:-0.53*e-1 = -0.20
  4. 1.00下面:-0.2*-1 = 0.2
  5. 4.00,-3.00 下面 0.2.(加號就直接分配梯度)對w2的梯度爲0.2
  6. -2.00,6.00下面爲0.2
  7. w0的梯度爲0.2*(-1.00)= -0.2
  8. w1的梯度爲0.2*(-2.00 )= -0.4

全連神經網絡的bp過程:
- 數學方法:


以上圖只有一個隱層的神經網絡爲例:得到y前,輸入的softmax函數的變量用t表示。z經過activition function 後的輸出用s表示。
未知數爲權值矩陣Wdm[d+1,m],Wmk[m+1,k] ,
loss=i=1ktilnyi,yi=etika=1eta

所以有
dlossdyi=tiyi(1)
dyidti=yi(1yi)(2),dyjdti=yiyj(3)
由(1)(2)(3)式得
dlossdti=dlossdyi.dyidti+jidlossdyj.dyidti=yiti

2,對max gate的求導:
z=max(x,y)|x=2,y=0
此時zx 的導爲2,對y 的導爲0.

3,向量對矩陣或向量求導

Ax=y
所以有y1=a11x1+a12x2+...+a1nxn,...,yn=an1x1+an2x2+...+annxn

觀察可知:dyidaij=xj,dykdaij=0(ki) ,所以(dydA)ij=xj 。同理因爲dyidxj=aij ,所以(dydx)i=nk=1aki

發佈了57 篇原創文章 · 獲贊 4 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章