從這一節開始，將介紹神經網絡的相關內容。
博客不以介紹基本概念爲主，而是注重一些淺顯的推到和證明過程，以幫助理解。
如果你對神經網絡一竅不通，你應該去看神經網絡與深度學習
該博客可以看做是對於該文章的摘要。

概念圖

上述圖片顯示了神經網絡的數據流動。
其中的每一個圓圈表示一個神經元。
一般對於神經元的描述如下：

一個神經元有幾個輸入和一個輸出，多個輸入和其權重相乘後在相加，其和通過和一個權重比較來決定輸出的值。

用公式來表示就是：

a = σ (w x + b), x = (x 1, . . ., x n) T, w = (w 1, . . ., w n) ， b \in R

即x爲輸入，w爲權重，b是一個實數，代表偏置，

σ(x) 是從輸入到輸出的映射，a爲對應的輸出。
如果你閱讀過前面機器學習的內容機器學習（二）：邏輯迴歸或者機器學習（四）：損失函數，就知道了可以使用躍階函數和sigmoid函數作爲判斷輸出值的標準，並會明白一般我們喜歡使用sigmoid函數。
同樣的，一般來說，神經網絡也採用sigmoid函數作爲從輸入到輸出的決定標準。

代價函數

義同損失函數，我們需要一個標準來優化神經網絡。
神經網絡的代價函數如下：

C (w, b) = 1 2 n \sum x | | y - a | | 2

y是對應於x的label,a是對應於x的神經網絡輸出值。
a是用過一系列的矩陣相乘，和sigmoid函數計算出來的。
目標是使得C(w,b)最小，其中w,b是參數變量，參考前一篇博客機器學習（三）：梯度下降法，我們將使用梯度下降方法。
若能得到

∂C∂w和∂C∂b ，就能得到梯度下降的跟新規則：

w' k = w k - η \partial C \partial w k b' l = b l - η \partial C \partial b l

那麼接下來的重點就是對於中間的結果，如何求解梯度了。

反向傳播（backpropagation）

在介紹這一節前，將詳細規定一下各參數。
一個神經網絡中的所有參數如下：

從l−1 層的第i個神經元到第l 層的第j個神經元的權重是wlji 。
則第l 層的的第j個神經元的輸出爲

a l j = σ (\sum i = 1 k w l j i a l - 1 i + b l j)

爲了簡潔，可以使用矩陣的表示形式：

a l = σ (w l a l - 1 + b l)

.
同時引入一箇中間變量：

z l \equiv w l a l - 1 + b l

zl 被稱爲帶權輸入。
下面將開始反向傳播中梯度的推導。

梯度推導

再推倒前，先引入一箇中間結果，因爲最後的形式會用到這個中間結果，即：

δ l j = \partial C \partial z l j

該定義可以理解爲第

l 層的第j個神經元上的誤差。

公式1

δ L j = \partial C \partial z L j = \partial C \partial a L j \partial a L j \partial z L j = \partial C \partial a L j σ' (z L j)

注意到這裏的

L ，他是最後一層神經元，即結果層。

公式2

根據公式1，可以求得最後一層的誤差，那麼知道知道了各層誤差間的關係，就能求得所有層的誤差項了。

δ l j = \partial C \partial z l j = \sum k \partial C \partial z l + 1 k \partial z l + 1 k \partial z L j

然後展開，因爲知道z之間的前後關係（具體過程可能有點複雜，這裏先不貼出詳細的推到了），因此可以找出最後的化簡結果：

δ l j = \sum k w l + 1 k j δ l + 1 k σ' (z l j)

公式3

因爲zl≡wlal−1+bl ，因此可以很容易得到：

\partial C \partial b l j = δ l j

同理可得：

公式4

\partial C \partial w l j k = a l - 1 k δ l j

到最後根據公式3和公式4，終於可以得到梯度的公式了。
因爲梯度的推到是從後往前，因此稱爲反向傳播。

深度學習（一）：神經網絡和反向傳播

概念圖

代價函數

反向傳播（backpropagation）

梯度推導

公式1

公式2

公式3

公式4

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

2020年上半年數據庫系統工程師考試

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

機器學習（七）：決策樹

機器學習（九）：k-means與聚類

深度學習（一）：神經網絡和反向傳播

java（十四）：transient與序列化

機器學習（三）：梯度下降法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結