BP（反向傳播）神經網絡

原創

2020-06-13 08:55

這篇文章主要討論神經網絡的反向傳播的細節，“誤差”是如何反向傳播的，我們又是如何利用梯度來優化參數的。

在學吳恩達機器學習視頻的神經網絡那節時，給出了許多公式，比如計算每層的誤差，每層參數的梯度，但並沒有給出推導過程，可能也是考慮入門級，大多人並不要知道其中含義就可以運用算法了。接下來我會給出詳細的推導過程，幫助大家理解。

注意接下來所講是未正則化的神經網絡。

1 計算公式

1.1 正向傳遞

假設現在有一個三層的神經網絡，如圖：

參數含義：

$\theta^{(i)}$ 第 $i$ 層的參數矩陣
$z^{(l)}$ 第 $l$ 層的輸入
$a^{(l)}$ 第 $l$ 層的輸出

傳遞過程：

$a^{(1)}=x$
$z^{(2)}=\theta^{(1)}a^{(1)}$
$a^{(2)}=g(z^{(2)}) (add\;a_0^{(2)})$
$z^{(3)}=\theta^{(2)}a^{(2)}$
$h=a^{(3)}=g(z^{(3)})$

其中 $g$ 爲sigmoid激活函數。

1.2 反向傳播

我們用 $\delta^{(l)}$ 表示每層的”誤差“， $y$ 爲每個樣本的標籤， $h$ 爲每個樣本的預測值。

吳恩達在課裏面提到，”誤差“的實質是 $\delta^{(l)}=\frac{\partial J}{\partial z^{(l)}}$ ，沒錯，後面詳細說明。

先來從後往前計算每層的“誤差“。注意到這裏的誤差用雙引號括起來，因爲並不是真正的誤差。

$\delta^{(3)}=h-y$ (1)
$\delta^{(2)}=(\theta^{(2)})^T\delta^{(3)}g^{'}(z^{(2)})$ (2)

注意第一層是沒有誤差的，因爲是輸入層。

然後來計算每層參數矩陣的梯度，用 $\Delta^{(l)}$ 表示

$\Delta^{(2)}=a^{(2)}\delta^{(3)}$ (3)
$\Delta^{(1)}=a^{(1)}\delta^{(2)}$ (4)

最後網絡的總梯度爲：

$D=\frac{1}{m}(\Delta^{(1)}+\Delta^{(2)})$ (5)

到這裏反向傳播就完成了，接着就可以利用梯度下降法或者更高級的優化算法來訓練網絡。

2 推導

這裏只推導 $\delta\;和\;\Delta$ 是怎麼來的，其餘的比較好理解。

首先明確我們要優化的參數有 $\theta^{(1)}$ ， $\theta^{(2)}$ ，利用梯度下降法的思想，我們只需要求解出代價函數對參數的梯度即可。

假設只有一個輸入樣本，則代價函數是：
$J(\theta)=-ylogh(x)-(1-y)log(1-h)$
回顧下正向傳遞的過程，理解其中函數的嵌套關係：

$a^{(1)}=x$
$z^{(2)}=\theta^{(1)}a^{(1)}$
$a^{(2)}=g(z^{(2)}) (add\;a_0^{(2)})$
$z^{(3)}=\theta^{(2)}a^{(2)}$
$h=a^{(3)}=g(z^{(3)})$

然後我們來求解代價函數對參數的梯度， $\frac{\partial}{\partial \theta^{(2)}}J(\theta)$ ， $\frac{\partial}{\partial \theta^{(1)}}J(\theta)$ 。

根據鏈式求導法則，可以計算得到：

把我畫紅線的地方令爲 $\delta^{(3)}$ ，是不是就得到了反向傳播中的公式（1）？

把畫綠線的部分令爲 $\Delta^{(2)}$ ，就得到了公式（3）。我們接着算：

同樣把紅線部分令爲 $\delta^{(3)}$ ，紫色部分令爲 $\delta^{(2)}$ ，就得到了公式（2）。

綠線部分令爲 $\Delta^{(1)}$ ，就得到了公式（4）。

至此，推導完畢。得到這個規律後，便可以應用到深層次的網絡中，計算反向傳播時就很方便了。

上面的公式因爲書寫麻煩，便只寫了結果。如果你用筆去慢慢推幾分鐘，會發現其實很簡單。

下面是大半年前給實驗室做報告做的PPT，沒想到現在重新學到這裏，感覺許多小細節記不清，故溫故一遍。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Keras深度神經網絡訓練IMDB情感分類的四種方法

原文 https://my.oschina.net/gaussik/blog/850642 Keras的官方Examples裏面展示了四種訓練IMDB文本情感分類的方法，藉助這4個Python程序，可以對Keras的使用做一定的瞭解。

2020-07-04 15:00:10

基於BP神經網絡的數據分類

轉自：基於BP神經網絡的數據分類，保存在此以學習。 BP（Back Propagation）網絡是1986年由Rumelhart和McCelland爲首的科學家小組提出，是一種按誤差逆傳播算法訓練的多層前饋網絡，是目前應用最廣泛

2020-07-04 01:37:50

數學在機器學習中的重要性

數學在機器學習中的重要性[by Dahua Lin] Linear Algebra (線性代數) 和 Statistics (統計學) 是最重要和不可缺少的。這代表了Machine Learning中最主流的兩大類方法的基礎。一

2020-07-03 11:38:38

對數學的新思考[1]

[轉林達華blog] 在過去的一年中，我一直在數學的海洋中游蕩，research進展不多，對於數學世界的閱歷算是有了一些長進。爲什麼要深入數學的世界作爲計算機的學生，我沒有任何企圖要成爲一個數學家。我學習數學的目的，是要

2020-07-03 11:38:38

opencv + face_recognition —— 人臉識別案例

文章目錄opencv + face_recognition —— 人臉識別案例0. 版本信息1. 導包2. 識別圖片中的面部3. 實現攝像頭中的面部追蹤4. 人臉追蹤+識別，分析出不同的人5. 人臉追蹤+識別，分析出不同的人（優化

2020-07-02 15:54:07

OpenCV學習——圖像基礎與幾何變換

文章目錄OpenCV學習——圖像基礎與幾何變換0. 版本信息1. 導包2. 圖像基礎2.1 圖片的讀取、展示、保存2.2 圖片的基本信息2.3 修改圖片像素點的顏色信息2.3 拆分與合併顏色三通道3. 繪圖3.1 線段、三角形、矩

2020-07-01 09:49:24

OpenCV學習——圖像特效

文章目錄OpenCV學習——圖像特效0. 版本信息1. 導包2. 灰度圖3. 顏色反轉4. 馬賽克效果5. 毛玻璃效果6. 圖片融合7. 邊緣檢測8. 浮雕效果9. 油畫效果 OpenCV學習——圖像特效 0. 版本信息產

2020-07-01 09:49:24

學習筆記———《SIFT算法》

本人在看論文的過程中涉及到了SIFT算法，通過閱讀Lowe的文章，也對應看了別人整理的筆記，個人覺得有些地方說的不是很清楚，特整理此筆記供大家參考！想下載pdf版本的朋友請到我資源裏去下載，下載地址：http://download.csd

2020-07-01 03:08:39

學習筆記———《GMM模型以及基於EM算法的參數估計》

本人在看論文的過程中涉及到了GMM模型，所以查找相關文獻整理了一下，共享給大家！基於EM算法的參數估計是通過斯坦福大學的公開課講EM算法的視頻學習的，也對應看了別人整理的筆記，個人覺得有些地方說的不是很清楚，特整理此筆記供大家參考。想下載

2020-07-01 03:08:39

統計學習方法第5章【2】----決策樹的生成

5.3 決策樹的生成 5.3.1 ID3算法核心是在決策樹各個節點上應用信息增益準則，遞歸地構建決策樹。算法5.2（ID3算法）輸入：訓練數據集D，特徵集A，閾值；輸出：決策樹T （1）若D中所有實例屬於第一類，則T爲單結點樹，並

2020-06-30 04:31:03

MachineLearning Practice: Adaboost

from numpy import * def loadSimpData(): datMat = matrix([[ 1. , 2.1], [ 2. , 1.1], [ 1.3, 1

2020-06-28 13:17:50

MachineLearning Practice: decision tree

1.K-NN算法可以完成很多分類任務，但是其中的一個較大的缺點是其無法給出數據的內在含義，決策樹能在數據形式上能對數據產生很好的解讀。決策樹能夠挖掘數據中蘊含的信息，因此決策樹可以應用於不熟悉的數據集，從中提取一系列的規則，而這個

2020-06-28 13:17:49

MachineLearning Practice: linear regression

from numpy import * def loadDataSet(fileName): #general function to parse tab -delimited floats numFeat

2020-06-28 13:17:49

Principle Contents Analysis主成分分析法和 Support Vector Machine支撐向量機

PCA PCA是一種數學方法，那他的好處都有啥???：降維降噪可視化 PCA的操作概括起來就是降維的同時讓樣本間間距最大——即使降維的影響最小化，用方差能很好解決這個問題。（我好像沒有介紹就直接開始講做法了是不是有點不妥

2020-06-27 13:34:05

Machine Learning and having it deep and structured - Hung-yi Lee

Ref: Link: Machine Learning and having it deep and structured Helpful note by AceCoooool 1-1 Deep why 由於Universal

2020-06-27 13:34:05

24小時熱門文章

最新文章

最新評論文章