人工智能、機器學習氾濫。以前搜不出來，現在搜出來的太多。找自己想看的都得費半天勁。

這當然是好的，有資料總比沒有強。但是搞這個方向，適合自己的纔是好材料。太簡單，你覺得不過癮，太深奧，你看不懂，所以文章，剛好講到你的困惑點，對你來說纔是好文章。

我自己覺得，反向傳播方法，UFLDL裏的講解比較適合我，通篇沒有廢話，簡單直接，寫的非常好，所以Mark一下，免得下次忘了UFLDL這個關鍵詞，又費半天勁去一頁一頁翻。

下文都是原樣搬過來的，文章寫的真的非常到位，所以只能當搬運工了。我是好文章的搬運工。

閱後記：文章湊得這麼寫。非常反感現在網上一大堆什麼“讀書筆記”，點進去一看，都是照搬，而且還把原文做了刪減，就是搬也不搬全(應該向我看齊，搬就全搬~~~)，還不如讓我看原文，浪費閱讀者的時間，嗤之以鼻涕。

文章中紅色字體是比較重要的，如果你比較熟悉Neural Network，只是一時想不起來具體如果推導BP，那隻需留意紅色字體部分快速刷後面第二部分即可。

最重要的，原文鏈接：http://ufldl.stanford.edu/wiki/index.php/UFLDL%E6%95%99%E7%A8%8B

裏面還有很多經典講解可以學習參考哦~

一、神經網絡

以監督學習爲例，假設我們有訓練樣本集 $\textstyle (x(^ i),y(^ i))$ ，那麼神經網絡算法能夠提供一種複雜且非線性的假設模型 $\textstyle h_{W,b}(x)$ ，它具有參數 $\textstyle W, b$ ，可以以此參數來擬合我們的數據。

爲了描述神經網絡，我們先從最簡單的神經網絡講起，這個神經網絡僅由一個“神經元”構成，以下即是這個“神經元”的圖示：

這個“神經元”是一個以 $\textstyle x_1, x_2, x_3$ 及截距 $\textstyle +1$ 爲輸入值的運算單元，其輸出爲 $\textstyle h_{W,b}(x) = f(W^Tx) = f(\sum_{i=1}^3 W_{i}x_i +b)$ ，其中函數 $\textstyle f : \Re \mapsto \Re$ 被稱爲“激活函數”。在本教程中，我們選用sigmoid函數作爲激活函數 $\textstyle f(\cdot)$

$f(z) = \frac{1}{1+\exp(-z)}.$

可以看出，這個單一“神經元”的輸入－輸出映射關係其實就是一個邏輯迴歸（logistic regression）。

雖然本系列教程採用sigmoid函數，但你也可以選擇雙曲正切函數（tanh）：

$f(z) = \tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}},$

以下分別是sigmoid及tanh的函數圖像

$\textstyle \tanh(z)$ 函數是sigmoid函數的一種變體，它的取值範圍爲 $\textstyle [-1,1]$ ，而不是sigmoid函數的 $\textstyle [0,1]$ 。

注意，與其它地方（包括OpenClassroom公開課以及斯坦福大學CS229課程）不同的是，這裏我們不再令 $\textstyle x_0=1$ 。取而代之，我們用單獨的參數 $\textstyle b$ 來表示截距。

最後要說明的是，有一個等式我們以後會經常用到：如果選擇 $\textstyle f(z) = 1/(1+\exp(-z))$ ，也就是sigmoid函數，那麼它的導數就是 $\textstyle f'(z) = f(z) (1-f(z))$ （如果選擇tanh函數，那它的導數就是 $\textstyle f'(z) = 1- (f(z))^2$ ，你可以根據sigmoid（或tanh）函數的定義自行推導這個等式。

神經網絡模型

所謂神經網絡就是將許多個單一“神經元”聯結在一起，這樣，一個“神經元”的輸出就可以是另一個“神經元”的輸入。例如，下圖就是一個簡單的神經網絡：

我們使用圓圈來表示神經網絡的輸入，標上“ $\textstyle +1$ ”的圓圈被稱爲偏置節點，也就是截距項。神經網絡最左邊的一層叫做輸入層，最右的一層叫做輸出層（本例中，輸出層只有一個節點）。中間所有節點組成的一層叫做隱藏層，因爲我們不能在訓練樣本集中觀測到它們的值。同時可以看到，以上神經網絡的例子中有3個輸入單元（偏置單元不計在內），3個隱藏單元及一個輸出單元。

我們用 $\textstyle {n}_l$ 來表示網絡的層數，本例中 $\textstyle n_l=3$ ，我們將第 $\textstyle l$ 層記爲 $\textstyle L_l$ ，於是 $\textstyle L_1$ 是輸入層，輸出層是 $\textstyle L_{n_l}$ 。本例神經網絡有參數 $\textstyle (W,b) = (W^{(1)}, b^{(1)}, W^{(2)}, b^{(2)})$ ，其中 $\textstyle W^{(l)}_{ij}$ （下面的式子中用到）是第 $\textstyle l$ 層第 $\textstyle j$ 單元與第 $\textstyle l+1$ 層第 $\textstyle i$ 單元之間的聯接參數（其實就是連接線上的權重，注意標號順序）， $\textstyle b^{(l)}_i$ 是第 $\textstyle l+1$ 層第 $\textstyle i$ 單元的偏置項。因此在本例中， $\textstyle W^{(1)} \in \Re^{3\times 3}$ ， $\textstyle W^{(2)} \in \Re^{1\times 3}$ 。注意，沒有其他單元連向偏置單元(即偏置單元沒有輸入)，因爲它們總是輸出 $\textstyle +1$ 。同時，我們用 $\textstyle s_l$ 表示第 $\textstyle l$ 層的節點數（偏置單元不計在內）。

我們用 $\textstyle a^{(l)}_i$ 表示第 $\textstyle l$ 層第 $\textstyle i$ 單元的激活值（輸出值）。當 $\textstyle l=1$ 時， $\textstyle a^{(1)}_i = x_i$ ，也就是第 $\textstyle i$ 個輸入值（輸入值的第 $\textstyle i$ 個特徵）。對於給定參數集合 $\textstyle W,b$ ，我們的神經網絡就可以按照函數 $\textstyle h_{W,b}(x)$ 來計算輸出結果。本例神經網絡的計算步驟如下：

$\begin{align} a_1^{(2)} &= f(W_{11}^{(1)}x_1 + W_{12}^{(1)} x_2 + W_{13}^{(1)} x_3 + b_1^{(1)}) \\ a_2^{(2)} &= f(W_{21}^{(1)}x_1 + W_{22}^{(1)} x_2 + W_{23}^{(1)} x_3 + b_2^{(1)}) \\ a_3^{(2)} &= f(W_{31}^{(1)}x_1 + W_{32}^{(1)} x_2 + W_{33}^{(1)} x_3 + b_3^{(1)}) \\ h_{W,b}(x) &= a_1^{(3)} = f(W_{11}^{(2)}a_1^{(2)} + W_{12}^{(2)} a_2^{(2)} + W_{13}^{(2)} a_3^{(2)} + b_1^{(2)}) \end{align}$

我們用 $\textstyle z^{(l)}_i$ 表示第 $\textstyle l$ 層第 $\textstyle i$ 單元輸入加權和（包括偏置單元），比如， $\textstyle z_i^{(2)} = \sum_{j=1}^n W^{(1)}_{ij} x_j + b^{(1)}_i$ ，則 $\textstyle a^{(l)}_i = f(z^{(l)}_i)$ 。

這樣我們就可以得到一種更簡潔的表示法。這裏我們將激活函數 $\textstyle f(\cdot)$ 擴展爲用向量（分量的形式）來表示，即 $\textstyle f([z_1, z_2, z_3]) = [f(z_1), f(z_2), f(z_3)]$ ，那麼，上面的等式可以更簡潔地表示爲：

$\begin{align} z^{(2)} &= W^{(1)} x + b^{(1)} \\ a^{(2)} &= f(z^{(2)}) \\ z^{(3)} &= W^{(2)} a^{(2)} + b^{(2)} \\ h_{W,b}(x) &= a^{(3)} = f(z^{(3)}) \end{align}$ （就算上面的沒看，也要看這裏！看這裏！）

我們將上面的計算步驟叫作前向傳播。回想一下，之前我們用 $\textstyle a^{(1)} = x$ 表示輸入層的激活值，那麼給定第 $\textstyle l$ 層的激活值 $\textstyle a^{(l)}$ 後，第 $\textstyle l+1$ 層的激活值 $\textstyle a^{(l+1)}$ 就可以按照下面步驟計算得到：

$\begin{align} z^{(l+1)} &= W^{(l)} a^{(l)} + b^{(l)} \\ a^{(l+1)} &= f(z^{(l+1)}) \end{align}$

將參數矩陣化，使用矩陣－向量運算方式，我們就可以利用線性代數的優勢對神經網絡進行快速求解。

目前爲止，我們討論了一種神經網絡，我們也可以構建另一種結構的神經網絡（這裏結構指的是神經元之間的聯接模式），也就是包含多個隱藏層的神經網絡。最常見的一個例子是 $\textstyle n_l$ 層的神經網絡，第 $\textstyle 1$ 層是輸入層，第 $\textstyle n_l$ 層是輸出層，中間的每個層 $\textstyle l$ 與層 $\textstyle l+1$ 緊密相聯。這種模式下，要計算神經網絡的輸出結果，我們可以按照之前描述的等式，按部就班，進行前向傳播，逐一計算第 $\textstyle L_2$ 層的所有激活值，然後是第 $\textstyle L_3$ 層的激活值，以此類推，直到第 $\textstyle L_{n_l}$ 層。這是一個前饋神經網絡的例子，因爲這種聯接圖沒有閉環或迴路。

神經網絡也可以有多個輸出單元。比如，下面的神經網絡有兩層隱藏層： $\textstyle L_2$ 及 $\textstyle L_3$ ，輸出層 $\textstyle L_4$ 有兩個輸出單元。

要求解這樣的神經網絡，需要樣本集 $\textstyle (x^{(i)}, y^{(i)})$ ，其中 $\textstyle y^{(i)} \in \Re^2$ 。如果你想預測的輸出是多個的，那這種神經網絡很適用。（比如，在醫療診斷應用中，患者的體徵指標就可以作爲向量的輸入值，而不同的輸出值 $\textstyle y_i$ 可以表示不同的疾病存在與否。）

二、反向傳導算法

假設我們有一個固定樣本集 $\textstyle \{ (x^{(1)}, y^{(1)}), \ldots, (x^{(m)}, y^{(m)}) \}$ ，它包含 $\textstyle m$ 個樣例。我們可以用批量梯度下降法來求解神經網絡。具體來講，對於單個樣例 $\textstyle (x,y)$ ，其代價函數爲：

$\begin{align} J(W,b; x,y) = \frac{1}{2} \left\| h_{W,b}(x) - y \right\|^2. \end{align}$

這是一個（二分之一的）方差代價函數。給定一個包含 $\textstyle m$ 個樣例的數據集，我們可以定義整體代價函數爲：

$\begin{align} J(W,b) &= \left[ \frac{1}{m} \sum_{i=1}^m J(W,b;x^{(i)},y^{(i)}) \right] + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2 \\ &= \left[ \frac{1}{m} \sum_{i=1}^m \left( \frac{1}{2} \left\| h_{W,b}(x^{(i)}) - y^{(i)} \right\|^2 \right) \right] + \frac{\lambda}{2} \sum_{l=1}^{n_l-1} \; \sum_{i=1}^{s_l} \; \sum_{j=1}^{s_{l+1}} \left( W^{(l)}_{ji} \right)^2 \end{align}$

以上關於 $\textstyle J(W,b)$ 定義中的第一項是一個均方差項。第二項是一個規則化項（也叫權重衰減項），其目的是減小權重的幅度，防止過度擬合。

[注：通常權重衰減的計算並不使用偏置項 $\textstyle b^{(l)}_i$ ，比如我們在 $\textstyle J(W, b)$ 的定義中就沒有使用。一般來說，將偏置項包含在權重衰減項中只會對最終的神經網絡產生很小的影響。如果你在斯坦福選修過CS229（機器學習）課程，或者在YouTube上看過課程視頻，你會發現這個權重衰減實際上是課上提到的貝葉斯規則化方法的變種。在貝葉斯規則化方法中，我們將高斯先驗概率引入到參數中計算MAP（極大後驗）估計（而不是極大似然估計）。]

權重衰減參數 $\textstyle \lambda$ 用於控制公式中兩項的相對重要性。在此重申一下這兩個複雜函數的含義： $\textstyle J(W,b;x,y)$ 是針對單個樣例計算得到的方差代價函數； $\textstyle J(W,b)$ 是整體樣本代價函數，它包含權重衰減項。

以上的代價函數經常被用於分類和迴歸問題。在分類問題中，我們用 $\textstyle y = 0$ 或 $\textstyle 1$ ，來代表兩種類型的標籤（回想一下，這是因爲 sigmoid激活函數的值域爲 $\textstyle [0,1]$ ；如果我們使用雙曲正切型激活函數，那麼應該選用 $\textstyle -1$ 和 $\textstyle +1$ 作爲標籤）。對於迴歸問題，我們首先要變換輸出值域（譯者注：也就是 $\textstyle y$ ），以保證其範圍爲 $\textstyle [0,1]$ （同樣地，如果我們使用雙曲正切型激活函數，要使輸出值域爲 $\textstyle [-1,1]$ ）。

我們的目標是針對參數 $\textstyle W$ 和 $\textstyle b$ 來求其函數 $\textstyle J(W,b)$ 的最小值。爲了求解神經網絡，我們需要將每一個參數 $\textstyle W^{(l)}_{ij}$ 和 $\textstyle b^{(l)}_i$ 初始化爲一個很小的、接近零的隨機值（比如說，使用正態分佈 $\textstyle {Normal}(0,\epsilon^2)$ 生成的隨機值，其中 $\textstyle \epsilon$ 設置爲 $\textstyle 0.01$ ），之後對目標函數使用諸如批量梯度下降法的最優化算法。因爲 $\textstyle J(W, b)$ 是一個非凸函數，梯度下降法很可能會收斂到局部最優解；但是在實際應用中，梯度下降法通常能得到令人滿意的結果。最後，需要再次強調的是，要將參數進行隨機初始化，而不是全部置爲 $\textstyle 0$ 。如果所有參數都用相同的值作爲初始值，那麼所有隱藏層單元最終會得到與輸入值有關的、相同的函數（也就是說，對於所有 $\textstyle i$ ， $\textstyle W^{(1)}_{ij}$ 都會取相同的值，那麼對於任何輸入 $\textstyle x$ 都會有： $\textstyle a^{(2)}_1 = a^{(2)}_2 = a^{(2)}_3 = \ldots$ ）。隨機初始化的目的是使對稱失效。

梯度下降法中每一次迭代都按照如下公式對參數 $\textstyle W$ 和 $\textstyle b$ 進行更新：

$\begin{align} W_{ij}^{(l)} &= W_{ij}^{(l)} - \alpha \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) \\ b_{i}^{(l)} &= b_{i}^{(l)} - \alpha \frac{\partial}{\partial b_{i}^{(l)}} J(W,b) \end{align}$

其中 $\textstyle \alpha$ 是學習速率。其中關鍵步驟是計算偏導數。我們現在來講一下反向傳播算法，它是計算偏導數的一種有效方法。

我們首先來講一下如何使用反向傳播算法來計算 $\textstyle \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x, y)$ 和 $\textstyle \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x, y)$ ，這兩項是單個樣例 $\textstyle (x,y)$ 的代價函數 $\textstyle J(W,b;x,y)$ 的偏導數。一旦我們求出該偏導數，就可以推導出整體代價函數 $\textstyle J(W,b)$ 的偏導數：

$\begin{align} \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b) &= \left[ \frac{1}{m} \sum_{i=1}^m \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x^{(i)}, y^{(i)}) \right] + \lambda W_{ij}^{(l)} \\ \frac{\partial}{\partial b_{i}^{(l)}} J(W,b) &= \frac{1}{m}\sum_{i=1}^m \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x^{(i)}, y^{(i)}) \end{align}$

以上兩行公式稍有不同，第一行比第二行多出一項，是因爲權重衰減是作用於 $\textstyle W$ 而不是 $\textstyle b$ 。

反向傳播算法的思路如下：給定一個樣例 $\textstyle (x,y)$ ，我們首先進行“前向傳導”運算，計算出網絡中所有的激活值，包括 $\textstyle h_{W,b}(x)$ 的輸出值。之後，針對第 $\textstyle l$ 層的每一個節點 $\textstyle i$ ，我們計算出其“殘差” $\textstyle \delta^{(l)}_i$ ，該殘差表明了該節點對最終輸出值的殘差產生了多少影響。對於最終的輸出節點，我們可以直接算出網絡產生的激活值與實際值之間的差距，我們將這個差距定義爲 $\textstyle \delta^{(n_l)}_i$ （第 $\textstyle n_l$ 層表示輸出層）。對於隱藏單元我們如何處理呢？我們將基於節點（譯者注：第 $\textstyle l+1$ 層節點）殘差的加權平均值計算 $\textstyle \delta^{(l)}_i$ ，這些節點以 $\textstyle a^{(l)}_i$ 作爲輸入。下面將給出反向傳導算法的細節：

進行前饋傳導計算，利用前向傳導公式，得到 $\textstyle L_2, L_3, \ldots$ 直到輸出層 $\textstyle L_{n_l}$ 的激活值。
對於第 $\textstyle n_l$ 層（輸出層）的每個輸出單元 $\textstyle i$ ，我們根據以下公式計算殘差：
$\begin{align} \delta^{(n_l)}_i = \frac{\partial}{\partial z^{(n_l)}_i} \;\; \frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 = - (y_i - a^{(n_l)}_i) \cdot f'(z^{(n_l)}_i) \end{align}$
[譯者注：
$\begin{align} \delta^{(n_l)}_i &= \frac{\partial}{\partial z^{n_l}_i}J(W,b;x,y) = \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 \\ &= \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}} (y_j-a_j^{(n_l)})^2 = \frac{\partial}{\partial z^{n_l}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}} (y_j-f(z_j^{(n_l)}))^2 \\ &= - (y_i - f(z_i^{(n_l)})) \cdot f'(z^{(n_l)}_i) = - (y_i - a^{(n_l)}_i) \cdot f'(z^{(n_l)}_i) \end{align}$
]
對 $\textstyle l = n_l-1, n_l-2, n_l-3, \ldots, 2$ 的各個層，第 $\textstyle l$ 層的第 $\textstyle i$ 個節點的殘差計算方法如下：
$\delta^{(l)}_i = \left( \sum_{j=1}^{s_{l+1}} W^{(l)}_{ji} \delta^{(l+1)}_j \right) f'(z^{(l)}_i)$
{譯者注：
$\begin{align} \delta^{(n_l-1)}_i &=\frac{\partial}{\partial z^{n_l-1}_i}J(W,b;x,y) = \frac{\partial}{\partial z^{n_l-1}_i}\frac{1}{2} \left\|y - h_{W,b}(x)\right\|^2 = \frac{\partial}{\partial z^{n_l-1}_i}\frac{1}{2} \sum_{j=1}^{S_{n_l}}(y_j-a_j^{(n_l)})^2 \\ &= \frac{1}{2} \sum_{j=1}^{S_{n_l}}\frac{\partial}{\partial z^{n_l-1}_i}(y_j-a_j^{(n_l)})^2 = \frac{1}{2} \sum_{j=1}^{S_{n_l}}\frac{\partial}{\partial z^{n_l-1}_i}(y_j-f(z_j^{(n_l)}))^2 \\ &= \sum_{j=1}^{S_{n_l}}-(y_j-f(z_j^{(n_l)})) \cdot \frac{\partial}{\partial z_i^{(n_l-1)}}f(z_j^{(n_l)}) = \sum_{j=1}^{S_{n_l}}-(y_j-f(z_j^{(n_l)})) \cdot f'(z_j^{(n_l)}) \cdot \frac{\partial z_j^{(n_l)}}{\partial z_i^{(n_l-1)}} \\ &= \sum_{j=1}^{S_{n_l}} \delta_j^{(n_l)} \cdot \frac{\partial z_j^{(n_l)}}{\partial z_i^{n_l-1}} = \sum_{j=1}^{S_{n_l}} \left(\delta_j^{(n_l)} \cdot \frac{\partial}{\partial z_i^{n_l-1}}\sum_{k=1}^{S_{n_l-1}}f(z_k^{n_l-1}) \cdot W_{jk}^{n_l-1}\right) \\ &= \sum_{j=1}^{S_{n_l}} \delta_j^{(n_l)} \cdot W_{ji}^{n_l-1} \cdot f'(z_i^{n_l-1}) = \left(\sum_{j=1}^{S_{n_l}}W_{ji}^{n_l-1}\delta_j^{(n_l)}\right)f'(z_i^{n_l-1}) \end{align}$
將上式中的 $\textstyle n_l-1$ 與 $\textstyle n_l$ 的關係替換爲 $\textstyle l$ 與 $\textstyle l+1$ 的關係，就可以得到：
$\delta^{(l)}_i = \left( \sum_{j=1}^{s_{l+1}} W^{(l)}_{ji} \delta^{(l+1)}_j \right) f'(z^{(l)}_i)$
以上逐次從後向前求導的過程即爲“反向傳導”的本意所在。 ]
計算我們需要的偏導數，計算方法如下：
$\begin{align} \frac{\partial}{\partial W_{ij}^{(l)}} J(W,b; x, y) &= a^{(l)}_j \delta_i^{(l+1)} \\ \frac{\partial}{\partial b_{i}^{(l)}} J(W,b; x, y) &= \delta_i^{(l+1)}. \end{align}$

最後，我們用矩陣-向量表示法重寫以上算法。我們使用“ $\textstyle \bullet$ ” 表示向量乘積運算符（在Matlab或Octave裏用“.*”表示，也稱作阿達馬乘積）。若 $\textstyle a = b \bullet c$ ，則 $\textstyle a_i = b_ic_i$ 。在上一個教程中我們擴展了 $\textstyle f(\cdot)$ 的定義，使其包含向量運算，這裏我們也對偏導數 $\textstyle f'(\cdot)$ 也做了同樣的處理（於是又有 $\textstyle f'([z_1, z_2, z_3]) = [f'(z_1), f'(z_2), f'(z_3)]$ ）。

那麼，反向傳播算法可表示爲以下幾個步驟：

進行前饋傳導計算，利用前向傳導公式，得到 $\textstyle L_2, L_3, \ldots$ 直到輸出層 $\textstyle L_{n_l}$ 的激活值。
對輸出層（第 $\textstyle n_l$ 層），計算：
$\begin{align} \delta^{(n_l)} = - (y - a^{(n_l)}) \bullet f'(z^{(n_l)}) \end{align}$
對於 $\textstyle l = n_l-1, n_l-2, n_l-3, \ldots, 2$ 的各層，計算：
$\begin{align} \delta^{(l)} = \left((W^{(l)})^T \delta^{(l+1)}\right) \bullet f'(z^{(l)}) \end{align}$
計算最終需要的偏導數值：
$\begin{align} \nabla_{W^{(l)}} J(W,b;x,y) &= \delta^{(l+1)} (a^{(l)})^T, \\ \nabla_{b^{(l)}} J(W,b;x,y) &= \delta^{(l+1)}. \end{align}$

實現中應注意：在以上的第2步和第3步中，我們需要爲每一個 $\textstyle i$ 值計算其 $\textstyle f'(z^{(l)}_i)$ 。假設 $\textstyle f(z)$ 是sigmoid函數，並且我們已經在前向傳導運算中得到了 $\textstyle a^{(l)}_i$ 。那麼，使用我們早先推導出的 $\textstyle f'(z)$ 表達式，就可以計算得到 $\textstyle f'(z^{(l)}_i) = a^{(l)}_i (1- a^{(l)}_i)$ 。

最後，我們將對梯度下降算法做個全面總結。在下面的僞代碼中， $\textstyle \Delta W^{(l)}$ 是一個與矩陣 $\textstyle W^{(l)}$ 維度相同的矩陣， $\textstyle \Delta b^{(l)}$ 是一個與 $\textstyle b^{(l)}$ 維度相同的向量。注意這裏“ $\textstyle \Delta W^{(l)}$ ”是一個矩陣，而不是“ $\textstyle \Delta$ 與 $\textstyle W^{(l)}$ 相乘”。下面，我們實現批量梯度下降法中的一次迭代：

對於所有 $\textstyle l$ ，令 $\textstyle \Delta W^{(l)} := 0$ , $\textstyle \Delta b^{(l)} := 0$ （設置爲全零矩陣或全零向量）
對於到，
1. 使用反向傳播算法計算 $\textstyle \nabla_{W^{(l)}} J(W,b;x,y)$ 和 $\textstyle \nabla_{b^{(l)}} J(W,b;x,y)$ 。
2. 計算 $\textstyle \Delta W^{(l)} := \Delta W^{(l)} + \nabla_{W^{(l)}} J(W,b;x,y)$ 。
3. 計算 $\textstyle \Delta b^{(l)} := \Delta b^{(l)} + \nabla_{b^{(l)}} J(W,b;x,y)$ 。
更新權重參數：
$\begin{align} W^{(l)} &= W^{(l)} - \alpha \left[ \left(\frac{1}{m} \Delta W^{(l)} \right) + \lambda W^{(l)}\right] \\ b^{(l)} &= b^{(l)} - \alpha \left[\frac{1}{m} \Delta b^{(l)}\right] \end{align}$

現在，我們可以重複梯度下降法的迭代步驟來減小代價函數 $\textstyle J(W,b)$ 的值，進而求解我們的神經網絡。

三、梯度檢驗與高級優化

衆所周知，反向傳播算法很難調試得到正確結果，尤其是當實現程序存在很多難於發現的bug時。舉例來說，索引的缺位錯誤（off-by-one error）會導致只有部分層的權重得到訓練，再比如忘記計算偏置項。這些錯誤會使你得到一個看似十分合理的結果（但實際上比正確代碼的結果要差）。因此，但從計算結果上來看，我們很難發現代碼中有什麼東西遺漏了。本節中，我們將介紹一種對求導結果進行數值檢驗的方法，該方法可以驗證求導代碼是否正確。另外，使用本節所述求導檢驗方法，可以幫助你提升寫正確代碼的信心。

缺位錯誤（Off-by-one error）舉例說明：比如 $\textstyle for$ 循環中循環 $\textstyle m$ 次，正確應該是 $\textstyle for (i=1;~i<=m;~i++)$ ，但有時程序員疏忽，會寫成 $\textstyle for (i=1;~i<m;~i++)$ ，這就是缺位錯誤。

假設我們想要最小化以 $\textstyle \theta$ 爲自變量的目標函數 $\textstyle J(\theta)$ 。假設 $\textstyle J : \Re \mapsto \Re$ ，則 $\textstyle \theta \in \Re$ 。在一維的情況下，一次迭代的梯度下降公式是

$\begin{align} \theta := \theta - \alpha \frac{d}{d\theta}J(\theta). \end{align}$

再假設我們已經用代碼實現了計算 $\textstyle \frac{d}{d\theta}J(\theta)$ 的函數 $\textstyle g(\theta)$ ，接着我們使用 $\textstyle \theta := \theta - \alpha g(\theta)$ 來實現梯度下降算法。那麼我們如何檢驗 $\textstyle g$ 的實現是否正確呢？

回憶導數的數學定義：

$\begin{align} \frac{d}{d\theta}J(\theta) = \lim_{\epsilon \rightarrow 0} \frac{J(\theta+ \epsilon) - J(\theta-\epsilon)}{2 \epsilon}. \end{align}$

那麼對於任意 $\textstyle \theta$ 值，我們都可以對等式左邊的導數用：

$\begin{align} \frac{J(\theta+{\rm EPSILON}) - J(\theta-{\rm EPSILON})}{2 \times {\rm EPSILON}} \end{align}$

來近似。

實際應用中，我們常將 $\textstyle EPSILON$ 設爲一個很小的常量，比如在 $\textstyle 10^{-4}$ 數量級（雖然 $\textstyle EPSILON$ 的取值範圍可以很大，但是我們不會將它設得太小，比如 $\textstyle 10^{-20}$ ，因爲那將導致數值舍入誤差。）

給定一個被認爲能計算 $\textstyle \frac{d}{d\theta}J(\theta)$ 的函數 $\textstyle g(\theta)$ ，我們可以用下面的數值檢驗公式

$\begin{align} g(\theta) \approx \frac{J(\theta+{\rm EPSILON}) - J(\theta-{\rm EPSILON})}{2 \times {\rm EPSILON}}. \end{align}$

計算兩端是否一樣來檢驗函數是否正確。

上式兩端值的接近程度取決於 $\textstyle J$ 的具體形式。但是在假定 $\textstyle {\rm EPSILON} = 10^{-4}$ 的情況下，你通常會發現上式左右兩端至少有4位有效數字是一樣的（通常會更多）。

現在，考慮 $\textstyle \theta \in \Re^n$ 是一個向量而非一個實數（那麼就有 $\textstyle n$ 個參數要學習得到），並且 $\textstyle J: \Re^n \mapsto \Re$ 。在神經網絡的例子裏我們使用 $\textstyle J(W,b)$ ，可以想象爲把參數 $\textstyle W,b$ 組合擴展成一個長向量 $\textstyle \theta$ 。現在我們將求導檢驗方法推廣到一般化，即 $\textstyle \theta$ 是一個向量的情況。

假設我們有一個用於計算 $\textstyle \frac{\partial}{\partial \theta_i} J(\theta)$ 的函數 $\textstyle g_i(\theta)$ ；我們想要檢驗 $\textstyle g_i$ 是否輸出正確的求導結果。我們定義 $\textstyle \theta^{(i+)} = \theta + {\rm EPSILON} \times \vec{e}_i$ ，其中

$\begin{align} \vec{e}_i = \begin{bmatrix}0 \\ 0 \\ \vdots \\ 1 \\ \vdots \\ 0\end{bmatrix} \end{align}$

是第 $\textstyle i$ 個基向量（維度和 $\textstyle \theta$ 相同，在第 $\textstyle i$ 行是“ $\textstyle 1$ ”而其他行是“ $\textstyle 0$ ”）。所以， $\textstyle \theta^{(i+)}$ 和 $\textstyle \theta$ 幾乎相同，除了第 $\textstyle i$ 行元素增加了 $\textstyle EPSILON$ 。類似地， $\textstyle \theta^{(i-)} = \theta - {\rm EPSILON} \times \vec{e}_i$ 得到的第 $\textstyle i$ 行減小了 $\textstyle EPSILON$ 。然後我們可以對每個 $\textstyle i$ 檢查下式是否成立，進而驗證 $\textstyle g_i(\theta)$ 的正確性：

$\begin{align} g_i(\theta) \approx \frac{J(\theta^{(i+)}) - J(\theta^{(i-)})}{2 \times {\rm EPSILON}}. \end{align}$

當用反射傳播算法求解神經網絡時，正確算法實現會得到：

$\begin{align} \nabla_{W^{(l)}} J(W,b) &= \left( \frac{1}{m} \Delta W^{(l)} \right) + \lambda W^{(l)} \\ \nabla_{b^{(l)}} J(W,b) &= \frac{1}{m} \Delta b^{(l)}. \end{align}$

以上結果與反向傳播算法中的最後一段僞代碼一致，都是計算梯度下降。爲了驗證梯度下降代碼的正確性，使用上述數值檢驗方法計算 $\textstyle J(W,b)$ 的導數，然後驗證 $\textstyle \left(\frac{1}{m}\Delta W^{(l)} \right) + \lambda W$ 與 $\textstyle \frac{1}{m}\Delta b^{(l)}$ 是否能夠給出正確的求導結果。

迄今爲止，我們的討論都集中在使用梯度下降法來最小化 $\textstyle J(\theta)$ 。如果你已經實現了一個計算 $\textstyle J(\theta)$ 和 $\textstyle \nabla_\theta J(\theta)$ 的函數，那麼其實還有更精妙的算法來最小化 $\textstyle J(\theta)$ 。舉例來說，可以想象這樣一個算法：它使用梯度下降，並能夠自動調整學習速率 $\textstyle \alpha$ ，以得到合適的步長值，最終使 $\textstyle \theta$ 能夠快速收斂到一個局部最優解。還有更妙的算法：比如可以尋找一個Hessian矩陣的近似，得到最佳步長值，使用該步長值能夠更快地收斂到局部最優（和牛頓法類似）。此類算法的詳細討論已超出了這份講義的範圍，但是L-BFGS算法我們以後會有論述（另一個例子是共軛梯度算法）。你將在編程練習裏使用這些算法中的一個。使用這些高級優化算法時，你需要提供關鍵的函數：即對於任一個 $\textstyle \theta$ ，需要你計算出 $\textstyle J(\theta)$ 和 $\textstyle \nabla_\theta J(\theta)$ 。之後，這些優化算法會自動調整學習速率/步長值 $\textstyle \alpha$ 的大小（並計算Hessian近似矩陣等等）來自動尋找 $\textstyle J(\theta)$ 最小化時 $\textstyle \theta$ 的值。諸如L-BFGS和共軛梯度算法通常比梯度下降法快很多。

Mark:UFLDL反向傳播算法及其檢驗調試方法——適合自己的纔是好的

一、神經網絡

神經網絡模型

二、反向傳導算法

三、梯度檢驗與高級優化

基於Gensim的Word2Vec增量式訓練方法

PR&ML之路

yacs直接讀取yaml文檔(python)

梯度下降方法中的學習率(learning rate), 衰減因子(decay) 衝量(momentum)

torch.utils.data.dataloader參數collate_fn簡析

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結