lecture4,backpropagation and nerual network

原創

2020-02-20 17:50

1，computational graphs,一系列簡單的計算過程組成的一張圖，易於求導(理論指導爲鏈式法則)

a,. feedward

b,backward:前一個輸入當作未知數求導，因爲前一個輸入包含着與未知數w的關係。即dydw=dydf(x).df(x)dx ,f(x)視爲前一個輸入。
所以

1.37下面應該爲 −11.372=−0.53
將1.37視爲output，對於0.37的倒數爲1，所以0.37下面爲-0.53*1 = -0.53
-1.00下面：-0.53*e-1 = -0.20
1.00下面：-0.2*-1 = 0.2
4.00，-3.00 下面 0.2.（加號就直接分配梯度）對w2的梯度爲0.2
-2.00，6.00下面爲0.2
w0的梯度爲0.2*（-1.00）= -0.2
w1的梯度爲0.2*（-2.00 ）= -0.4

全連神經網絡的bp過程：
- 數學方法：

以上圖只有一個隱層的神經網絡爲例：得到y前，輸入的softmax函數的變量用t表示。z經過activition function 後的輸出用s表示。
未知數爲權值矩陣

Wdm[d+1,m],Wmk[m+1,k] ,

l o s s = - \sum i = 1 k t i l n y i, y i = e t i \sum k a = 1 e t a

所以有

d l o s s d y i = t i y i (1)

d y i d t i = y i (1 - y i) (2), d y j d t i = - y i y j (3)

由(1)(2)(3)式得

d l o s s d t i = d l o s s d y i . d y i d t i + \sum j \neq i d l o s s d y j . d y i d t i = y i - t i

2，對max gate的求導：

z = m a x (x, y) | x = 2, y = 0

此時

z 對

x 的導爲2，對

y 的導爲0.

3，向量對矩陣或向量求導

A x = y

所以有

y1=a11x1+a12x2+...+a1nxn,...,yn=an1x1+an2x2+...+annxn

觀察可知：dyidaij=xj,dykdaij=0(k≠i) ，所以(dydA)ij=xj 。同理因爲dyidxj=aij ，所以(dydx)i=∑nk=1aki 。

發佈了57 篇原創文章 · 獲贊 4 · 訪問量 2萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【記錄】爲什麼在CNN的Batch Norm中對C個channel進行歸一化

下面是cs231n-assignment2中的Spatial Batch Norm的介紹中對於此處空間歸一化的解釋，爲什麼對shape爲NCHW的圖像數據進行Batch Norm時需要計算NHW維度的mean和var If th

不跑步就等肥

2020-07-07 15:12:31

Kaggle手寫數字識別（Digit Recognizer）記錄

競賽地址 https://www.kaggle.com/c/digit-recognizer 苦於學了cs231n和pytorch之後沒有東西拿來練手，就去kaggle上找了一個入門競賽，MNIST手寫數字識別，這個比賽把MN

不跑步就等肥

2020-07-07 15:12:31

Stanford-CS231n-assignment2-BatchNormalization

文章目錄1- layers.py2- layer_utils.py加入四個求解batch/layer norm的函數3- fc_net.py的完善4- Batchnorm for deep networks訓練結果4.1- bat

不跑步就等肥

2020-07-07 15:12:31

Pytorch搭建神經網絡基本步驟（文末附pytorch實現AlexNet）

文章參考: http://pytorch123.com/SecondSection/neural_networks/ cs231n assignment2 - http://cs231n.github.io/assignment

不跑步就等肥

2020-07-07 15:12:31

cs31n_lesson6_7

1.生物學解釋神經網絡中的神經元(neurons)：從輸入（如圖像）得到的一個輸出最小單元稱之爲一個神經元。具體一點說，對於一個雙層網絡（1輸入、1中間層、1輸出），如果輸入爲一個樣本，則隱藏層的維數H+最終輸出維度數C,就是神

2020-06-30 01:02:50

cs231nLesson1-3

cs231n每半年更新一次，最近看了新的版本，整理了下之前學習的筆記和作業。 .Diffuculty of Recogonition: illumination, deformation, Background Clutter,

2020-06-30 01:02:50

深度學習術語

一些名詞： depth/depthcolumn/fibre——K:疊加的卷積核的個數。每個卷積覈對一層圖像I1進行處理得到I2（activationmap），下一個卷積核在I2基礎上進行處理得到I3（activationmap）,

2020-06-30 01:02:50

cs231n'18：Lecture 2 | Image Classification Pipeline

Lecture 2的前半部分講Course Note 1裏面的內容，包括KNN和Validation。要點請參考Course Note 1的筆記。後半部分給Course Note 2裏面的Linear Classification開個頭。

2020-06-29 16:52:58

cs231n'18：Lecture 3 | Loss Functions and Optimization

Lecture 3講Course Note 2和Course Note 3裏面的內容.前一部分講SVM和Softmax loss function的計算。要點請參考Course Note 2的筆記。聽完這一節部分可以去做SVM和Soft

2020-06-29 16:52:58

cs231n'18： Course Note 3

Optimization: Stochastic Gradient Descent 這一節主要講optimization的相關內容。重點在於各種grads的實現，特別是與矩陣相關的grads的實現，包括公式推導和代碼實現。note

2020-06-29 16:52:58

cs231n'18：Lecture 6 | Training Neural Networks I

這一節講Course Note 5/6和7中的一部分。這是這門課中講的最爛的一節，內容雜亂，沒有重點。既然ReLU是最常用的，爲什麼又拿tanh舉例子；BN這麼重要的問題沒講明白，下面同學提了一大堆問題。看看Course Note 5筆記

2020-06-29 16:52:58

cs231n'18： Course Note 2

Linear classification: Support Vector Machine, Softmax Linear Classification 實現image classification更常用的方法是採用score f

2020-06-29 16:52:55

cs231n'18：Lecture 5 | Convolutional Neural Networks

Lecture 5 講的是 Course Note 9 裏面的內容，建議先聽 Lecture 6和7，然後Lecture 5和9一起聽。Lecture 5 鏈接

2020-06-29 16:52:55

cs231n'18：Lecture 7 | Training Neural Networks II

Lecture 7主要講note 7中的優化問題，這個小夥子比那個小姑娘講的好太多。具體內容參考Course Note 7筆記。Lecture 7 鏈接

2020-06-29 16:52:55

cs231n'18：Lecture 1 | Introduction to Convolutional Neural Networks for Visual Recognition

一如既往，第一節課都是侃侃大山，沒什麼好說的。Lecture 1 鏈接

2020-06-29 16:52:55

24小時熱門文章

SQL優化-20231016

最新文章

最新評論文章