Shallow Neural Network Week 3

原創

2020-02-25 15:44

Single Sample

Symbols

$X = (\begin{matrix} x_{1} \\ ⋮ \\ x_{n_{x}} \end{matrix}), Y = (\begin{matrix} y_{1} \\ ⋮ \\ y_{n_{y}} \end{matrix}),$
$Z^{[l]} = (\begin{matrix} z_{1}^{[l]} \\ ⋮ \\ z_{n_{l}}^{[l]} \end{matrix}), 1 \leq l \leq L$
$A^{[l]} = (\begin{matrix} a_{1}^{[l]} \\ ⋮ \\ a_{n_{l}}^{[l]} \end{matrix}), {\tilde{A}}^{[l]} = (\begin{matrix} a_{0}^{[l]} \\ a_{1}^{[l]} \\ ⋮ \\ a_{n_{l}}^{[l]} \end{matrix}) = (\begin{matrix} 1 \\ A^{[l]} \end{matrix}), 0 \leq l \leq L$
$W^{[l]} = {(\begin{matrix} w_{i j}^{[l]} \end{matrix})}_{n_{l} \times n_{l - 1}}, w^{' [l]} = (\begin{matrix} w_{1, 0}^{[l]} \\ ⋮ \\ w_{n_{l}, 0}^{[l]} \end{matrix}), {\tilde{W}}^{[l]} = (\begin{matrix} w^{' [l]} & W^{[l]} \end{matrix}), 1 \leq l < L$

Neural Network Architecture

$X = A^{[0]} \to Z^{[1]} \to A^{[1]} \to \dots \to Z^{[L]} \to A^{[L]} = \hat{Y}$

Loss Function

$z_{i}^{[l]} = \sum_{j = 0}^{n_{l - 1}} w_{i j}^{[l]} {\tilde{a}}_{j}^{[l - 1]}, 1 \leq i \leq n_{l}, 1 \leq l \leq L$
即 $Z^{l} = W^{[l]} {\tilde{A}}^{[l - 1]}, 1 \leq l \leq L$
$a_{i}^{[l]} = g (z_{i}^{[l]}), 1 \leq i \leq n_{l}, 1 \leq l \leq L$
即 $A^{[l]} = g (Z^{[l]}), 1 \leq l \leq L$
$loss (X, Y) = - \sum_{i = 1}^{n_{y}} [y_{i} \ln {\hat{y}}_{i} + (1 - y_{i}) \ln (1 - {\hat{y}}_{i})]$

公式

$\frac{\partial}{\partial z_{i}^{[L]}} loss (X, Y) = \frac{d {\hat{y}}_{i}}{d z_{i}^{[L]}} \cdot \frac{\partial}{\partial {\hat{y}}_{i}} loss (X, Y)$
$= - g^{'} (z^{[L]}) [y_{i} \cdot \frac{1}{{\hat{y}}_{i}} - (1 - y_{i}) \cdot \frac{1}{1 - {\hat{y}}_{i}}]$
$= - {\hat{y}}_{i} (1 - {\hat{y}}_{i}) [y_{i} \cdot \frac{1}{{\hat{y}}_{i}} - (1 - y_{i}) \cdot \frac{1}{1 - {\hat{y}}_{i}}]$
$= (1 - y_{i}) {\hat{y}}_{i} - y_{i} (1 - {\hat{y}}_{i})$
$= {\hat{y}}_{i} - y_{i}, 1 \leq i \leq n_{L}$

$\frac{\partial}{\partial z_{j}^{[l]}} loss (X, Y) = \sum_{i = 1}^{n_{l + 1}} \frac{\partial z_{i}^{[l + 1]}}{\partial z_{j}^{[l]}} \cdot \frac{\partial}{\partial z_{i}^{[l + 1]}} loss (X, Y)$
$= \sum_{i = 1}^{n_{l + 1}} g^{'} (z_{j}^{[l]}) w_{i j}^{[l]} \cdot \frac{\partial}{\partial z_{i}^{[l + 1]}} loss (X, Y)$
$= g^{'} (z_{j}^{[l]}) \sum_{i = 1}^{n_{l + 1}} w_{i j}^{[l]} \cdot \frac{\partial}{\partial z_{i}^{[l + 1]}} loss (X, Y), 1 \leq j \leq s_{l}, 1 \leq l < L$
因此
$\frac{\partial}{\partial Z^{[l]}} loss (X, Y) = {\begin{cases} A^{[L]} - Y, l = L \\ g^{'} (Z^{[l]}) . * ({(W^{[l + 1]})}^{⊺} \frac{\partial}{\partial Z^{[l + 1]}} loss (X, Y)), 1 \leq l < L \end{cases}$
where .* is element-wise product.

$\frac{\partial}{\partial w_{i j}^{[l]}} loss (X, Y) = \frac{\partial}{\partial z_{i}^{[l]}} loss (X, Y) \cdot {\tilde{a}}_{j}^{[l - 1]}, 1 \leq i \leq s_{l + 1}, 0 \leq j \leq s_{l}, 1 \leq l \leq L$
因此
$\frac{\partial}{\partial {\tilde{W}}^{[l]}} loss (X, Y) = \frac{\partial}{\partial Z^{[l]}} loss (X, Y) \cdot {\tilde{A}}^{[l - 1]}^{⊺}, 1 \leq l \leq L$

Multiple Samples

Symbols

$X = (\begin{matrix} X^{(1)}, & \dots, & X^{(m)} \end{matrix}),$
$Y = (\begin{matrix} Y^{(1)}, & \dots, & Y^{(m)} \end{matrix}),$
$Z^{[l]} = (\begin{matrix} Z^{[l] (1)}, & \dots, & Z^{[l] (m)} \end{matrix}), 1 \leq l \leq L$
$A^{[l]} = (\begin{matrix} A^{[l] (1)}, & \dots, & A^{[l] (m)} \end{matrix}), 0 \leq l \leq L$
${\tilde{A}}^{[l]} = (\begin{matrix} {\tilde{A}}^{[l] (1)}, & \dots, & {\tilde{A}}^{[l] (m)} \end{matrix}), 0 \leq l \leq L$
$\partial Z^{[l]} = {(\begin{matrix} \frac{\partial}{\partial Z^{[l]}} loss (X^{(1)}, Y^{(1)}), & \dots, & \frac{\partial}{\partial Z^{[l]}} loss (X^{(m)}, Y^{(m)}) \end{matrix})}_{n_{l} \times m}, 1 \leq l \leq L$

Cost Function

$cost (X, Y) = \frac{1}{m} \sum_{i = 1}^{m} loss (X^{(i)}, Y^{(i)})$

公式

$Z^{[l]} = W^{[l]} {\tilde{A}}^{[l - 1]}, 1 \leq l < L$
$A^{[l]} = g (Z^{[l]}), 1 \leq l \leq L$
$g^{'} (Z^{[l]}) = A^{[l]} . * (1_{n_{l} \times m} - A^{[l]}), 1 \leq l \leq L$

$\partial Z^{[l]} = {\begin{cases} A^{[L]} - Y, l = L \\ g^{'} (Z^{[l]}) . * ({(W^{[l + 1]})}^{⊺} \cdot \partial Z^{[l + 1]}), 1 \leq l < L \end{cases}$
$\frac{\partial}{\partial {\tilde{W}}^{[l]}} cost (X, Y) = \frac{1}{m} \partial Z^{[l]} \cdot {\tilde{A}}^{[l - 1]}^{⊺}, 1 \leq l \leq L$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Shallow Neural Network Week 3

Single Sample

Symbols

Neural Network Architecture

Loss Function

公式

Multiple Samples

Symbols

Cost Function

公式

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

java由於越界導致的報錯

線性規劃的標準型與規範型 (Standard and Canonical Forms)

多面集的表示定理的必要性的證明

Shallow Neural Network Week 3

Backpropagation Algorithm 的梯度

多面集的方向的性質

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結