Andrew Ng-深度學習-第一門課-week4

1.4 深層神經網絡

1.4.1 深層神經網絡

在這裏插入圖片描述
符號定義:

  • 層數:L=4L=4;輸入層的索引爲“0”;
  • n[l]{n}^{[l]}:代表第l層有多少個神經元,n[1]=5{n}^{[1]}=5n[2]=5{n}^{[2]}=5n[3]=3{n}^{[3]}=3n[4]{{n}^{[4]}}=n[L]=1{{n}^{[L]}}=1(輸出單元爲1);n[0]=nx=3{n}^{[0]}={n}_{x}=3(輸入層);
  • a[l]{a}^{[l]}代表第l層激活後結果;
  • w[l]{w}^{[l]}代表第l層計算z[l]{z}^{[l]}值的權重;

1.4.2 前向傳播和反向傳播

前向傳播:
z[1]=w[1]x+b[1]a[1]=g[1](z[1])第一層{{z}^{[1]}}={{w}^{[1]}}x+{{b}^{[1]}},{{a}^{[1]}}={{g}^{[1]}} {({z}^{[1]})}

z[2]=w[2]a[1]+b[2]a[2]=g[2](z[2])第二層{{z}^{[2]}}={{w}^{[2]}}{{a}^{[1]}}+{{b}^{[2]}},{{a}^{[2]}}={{g}^{[2]}} {({z}^{[2]})}

......

z[4]=w[4]a[3]+b[4]a[4]=g[4](z[4])第四層爲{{z}^{[4]}}={{w}^{[4]}}{{a}^{[3]}}+{{b}^{[4]}},{{a}^{[4]}}={{g}^{[4]}} {({z}^{[4]})}

z[l]=w[l]a[l1]+b[l]a[l]=g[l](z[l])歸納爲多次迭代{{z}^{[l]}}={{w}^{[l]}}{{a}^{[l-1]}}+{{b}^{[l]}},{{a}^{[l]}}={{g}^{[l]}} {({z}^{[l]})}

z[l]=W[l]A[l1]+b[l]A[l]=g[l](Z[l])向量化: {z}^{[l]}={W}^{[l]}\cdot {A}^{[l-1]}+{b}^{[l]},{A}^{[l]}={g}^{[l]}({Z}^{[l]})

變量維度:
w[l]:R(n[l],n[l1]){{w}^{[l]}}: R^{({{n}^{[l]}}, {{n}^{[l-1]}})}

b[l]{{b}^{[l]}} : R(n[l],1)R^{(n^{[l]},1)}

z[l]{{z}^{[l]}},R(n[l],1)R^{(n^{[l]},1)};

向量化後的維度:
Z[l]=(z[l][1]z[l][2]z[l][3]z[l][m]){Z}^{[l]}=({{z}^{[l][1]}},{{z}^{[l][2]}},{{z}^{[l][3]}},…,{{z}^{[l][m]}})Z[l](n[l],m){Z}^{[l]}\in({{n}^{[l]}},m)

A[l](n[l],m){A}^{[l]} \in ({n}^{[l]},m)A[0]=X(n[l],m){A}^{[0]} = X \in ({n}^{[l]},m)

反向傳播:

(1)dz[l]=da[l]g[l](z[l])d{{z}^{[l]}}=d{{a}^{[l]}}*{{g}^{[l]}}'( {{z}^{[l]}})

(2)dw[l]=dz[l]a[l1] d{{w}^{[l]}}=d{{z}^{[l]}}\cdot{{a}^{[l-1]}}~

(3)db[l]=dz[l]  d{{b}^{[l]}}=d{{z}^{[l]}}~~

(4)da[l1]=w[l]Tdz[l]d{{a}^{[l-1]}}={{w}^{\left[ l \right]T}}\cdot {{dz}^{[l]}}

(5)dz[l]=w[l+1]Tdz[l+1] g[l](z[l]) d{{z}^{[l]}}={{w}^{[l+1]T}}d{{z}^{[l+1]}}\cdot \text{ }{{g}^{[l]}}'( {{z}^{[l]}})~

式子(5)由式子(4)帶入式子(1)得到,前四個式子就可實現反向函數。

向量化:

(6)dZ[l]=dA[l]g[l](Z[l])  d{{Z}^{[l]}}=d{{A}^{[l]}}*{{g}^{\left[ l \right]}}'\left({{Z}^{[l]}} \right)~~

(7)dW[l]=1mdZ[l]A[l1]Td{{W}^{[l]}}=\frac{1}{m}\text{}d{{Z}^{[l]}}\cdot {{A}^{\left[ l-1 \right]T}}

(8)db[l]=1m np.sum(dz[l],axis=1,keepdims=True)d{{b}^{[l]}}=\frac{1}{m}\text{ }np.sum(d{{z}^{[l]}},axis=1,keepdims=True)

(9)dA[l1]=W[l]T.dZ[l]d{{A}^{[l-1]}}={{W}^{\left[ l \right]T}}.d{{Z}^{[l]}}

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章