矩陣論（八）：矩陣微分與矩陣求導

矩陣論專欄：專欄（文章按照順序排序）

做機器學習的幾乎避免不了矩陣求導，尤其是神經網絡方面的，反向傳播算法說白了就是在做矩陣求導，拿到代價函數對模型中每個參數矩陣的導數，才能找到一個下降方向，進而更新這些參數來降低損失。雖然實際編程時大可不必考慮這些繁瑣的數學計算，但是要真正理解凸優化中的一些方法，掌握這個基本的數學工具還是有必要的。

【1】下面的探討均在實數域內進行。
【2】雖然 $R^n$ 定義爲實數域 $R$ 中的 $n$ 個數組成的有序數組 $(x_1,x_2,...,x_n)$ 的集合，但當我們討論 $R^n$ 中向量時，總是約定它是列向量的形式，即總是一個 $n\times 1$ 矩陣。這樣更符合一般的習慣，比如線性方程組的表達： $Ax=b, A\in R^{m\times n},x\in R^n,b\in R^m$ 。
【3】我們討論三種情形。向量對向量求導、矩陣對標量求導、標量對矩陣求導。標量對標量求導、標量對向量求導、向量對標量求導都可以看作是向量對向量求導的特例，而向量對矩陣求導、矩陣對向量求導和矩陣對矩陣求導涉及到高階張量的運算，可以通過把矩陣向量化，從而把高階運算用低階運算代替。這樣的方法需要向量化運算vec和kronecker積的基礎，本篇博客不引入這兩個概念，後面的博客探討矩陣函數的微分時再引入。
【4】符號 $\frac{\partial y}{\partial x}$ 表示偏導，本文爲表示方便，用 $\frac{\partial y}{\partial x}(a)$ 表示在點 $a$ 處的偏導的值（原本的表示應爲 $\frac{\partial y}{\partial x}|_{x=a}$ 或 $\frac{\partial f(x)}{\partial x}|_{x=a}$ ）

矩陣微分與矩陣求導
- 佈局約定
- 向量對向量求導
  - 可微與可導的關係
  - 複合函數的鏈式求導法則
  - 微分的形式不變性
  - 例子
- 矩陣對標量求導
  - 鏈式法則
  - 幾個公式
- 標量對矩陣求導
  - 微分的定義
  - 複合函數的微分
  - 常用的微分公式
  - 例子
應用
- 線性迴歸問題的最小二乘解
  - L2正則化情形
- 多層前饋網絡（BP網絡）的反向傳播
- 循環神經網絡（RNN）的反向傳播

矩陣微分與矩陣求導

佈局約定

詳細請見數學-矩陣計算（4）兩種佈局。在本文中，多數情況下采用分子佈局。分子佈局和分母佈局實際上無需刻意區分，只要兩種佈局採用不同的符號就可以了。然而，有時候有些作者對分子佈局和分母佈局採用相同的符號，這時候就必須事先知道作者採用的是什麼樣的佈局，才能確定該符號表達的佈局是怎樣的。例如，設有m維向量 $y$ 和n維向量 $x$ ， $\frac{\partial y}{\partial x}$ 如果採用的是分子佈局，則是 $m\times n$ 矩陣，而如果採用的是分母佈局，則是 $n\times m$ 矩陣。在本文中，我們通過符號來區分分子佈局和分母佈局（實際上，有了符號的約定以後，可以拋卻這兩個概念不談）。

首先，正如文章開頭所提，我們默認一個未顯式指出究竟是行還是列的向量爲列的形式，即任取 $x\in R^n$ ，我們默認 $x$ 是列向量。接下來，導數的佈局通過微商符號的分子和分母的形式推定。以向量對向量的偏導爲例， $\frac{\partial y}{\partial x^T}$ 分子上(即 $y$ )是列向量，分母上(即 $x^T$ )是行向量，則在該矩陣的佈局中， $y$ 的分量 $y_1,y_2,...,y_m$ 是按列排布的， $x$ 的分量 $x_1,x_2,...,x_n$ 是按行排布的（這裏真不知道怎麼表達纔好，實際上我是想說 $\partial y_1,\partial y_2,...\partial y_m$ 這樣的順序總是出現在矩陣的一列上， $\partial x_1,\partial x_2,...\partial x_n$ 總是出現在矩陣的一行上），即 $\frac{\partial y}{\partial x^T}=\begin{bmatrix}\frac{\partial y_1}{\partial x_1}&\frac{\partial y_1}{\partial x_2}&...&\frac{\partial y_1}{\partial x_n}\\\frac{\partial y_2}{\partial x_1}&\frac{\partial y_2}{\partial x_2}&...&\frac{\partial y_2}{\partial x_n}\\...&...&...&...\\\frac{\partial y_m}{\partial x_1}&\frac{\partial y_m}{\partial x_2}&...&\frac{\partial y_m}{\partial x_n}\end{bmatrix}$
這就是所謂的分子佈局。而 $\frac{\partial y^T}{\partial x}=\begin{bmatrix}\frac{\partial y_1}{\partial x_1}&\frac{\partial y_2}{\partial x_1}&...&\frac{\partial y_m}{\partial x_1}\\\frac{\partial y_1}{\partial x_2}&\frac{\partial y_2}{\partial x_2}&...&\frac{\partial y_m}{\partial x_2}\\...&...&...&...\\\frac{\partial y_1}{\partial x_n}&\frac{\partial y_2}{\partial x_n}&...&\frac{\partial y_m}{\partial x_n}\end{bmatrix}$ 就是所謂的分母佈局。這兩種佈局間的關係是 $\frac{\partial y^T}{\partial x}=(\frac{\partial y}{\partial x^T})^T$ 。總結一下就是，我們可以通過符號推定導數的佈局是什麼樣的，在符號（微商）中，一個向量本來是什麼形式，它在導數中就是怎樣的排布，矩陣也同理。例如設有標量 $x\in R$ 和矩陣 $Y=[Y_{ij}]\in R^{m\times n}$ ，則 $\frac{\partial x}{\partial Y}=\begin{bmatrix}\frac{\partial x}{\partial Y_{11}}&\frac{\partial x}{\partial Y_{12}}&...&\frac{\partial x}{\partial Y_{1n}}\\\frac{\partial x}{\partial Y_{21}}&\frac{\partial x}{\partial Y_{22}}&...&\frac{\partial x}{\partial Y_{2n}}\\...&...&...&...\\\frac{\partial x}{\partial Y_{m1}}&\frac{\partial x}{\partial Y_{m2}}&...&\frac{\partial x}{\partial Y_{mn}}\end{bmatrix}$ 而 $\frac{\partial x}{\partial Y^T}=\begin{bmatrix}\frac{\partial x}{\partial Y_{11}}&\frac{\partial x}{\partial Y_{21}}&...&\frac{\partial x}{\partial Y_{m1}}\\\frac{\partial x}{\partial Y_{12}}&\frac{\partial x}{\partial Y_{22}}&...&\frac{\partial x}{\partial Y_{m2}}\\...&...&...&...\\\frac{\partial x}{\partial Y_{1n}}&\frac{\partial x}{\partial Y_{2n}}&...&\frac{\partial x}{\partial Y_{mn}}\end{bmatrix}$

向量對向量求導

在談求導前，有必要談一下微分的概念。一方面在後面可以看到可微是比可導更強的概念，在可微的條件下運用一階微分的形式不變性可以簡化複合函數的求導運算；另一方面，凸優化中的很多結論都是以可微爲前提的，僅僅可導是遠遠不夠的。
可微的定義：

定義1：設 $c\in R^n$ ，函數 $f:D\rightarrow R^m$ 在 $c$ 的某個半徑爲 $r>0$ 的鄰域 $U(c)$ 內有定義。若存在矩陣 $A\in R^{m\times n}$ ，使得對於任意的 $u\in \mathring U(0)$ （ $0\in R^n$ 是零向量，去心鄰域 $\mathring U(0)$ 的半徑爲 $r$ ）有如下關係成立： $f(c+u)-f(c)=Au+\omicron(||u||_2)$ ，其中 $\omicron(||u||_2)$ 是當 $u\rightarrow 0$ 時的一個高階無窮小，則稱 $f$ 在點 $c$ 處是可微的，稱 $u$ 的線性函數 $Au$ （又叫 $f$ 在點 $c$ 處的線性主部）爲 $f$ 在點 $c$ 處的微分，記作 $df(c)=Au$ ，並稱 $A$ 是 $f$ 在點 $c$ 處的一階導數矩陣，簡稱一階導數。
【注1】“ $f$ 在 $c$ 的某個半徑爲 $r>0$ 的鄰域 $U(c)$ 內有定義”中“某個”的意思是指存在一個鄰域 $U(c)$ ，它在 $f$ 的定義域內
【注2】當點 $c$ 給定後， $A$ 就是一個常矩陣，即要求 $A$ 與 $u$ 是無關的， $A$ 可以看做是 $c$ 的函數 $A(c)$
【注3】微分的基本思想是將非線性函數局部線性化。 $f(c+u)-f(c)$ 可以看做是 $f$ 在點 $c$ 處，自變量改變量爲 $u$ 時的函數值改變量（因變量改變量），若忽略高階無窮小項 $\omicron(||u||_2)$ 則得到 $f(c+u)-f(c)=Au$ ，即在點 $c$ 的某個鄰域內（即“局部”的意思）將 $f$ 用一個線性函數 $Au$ 替代
【注4】符號 $df(c)$ 直觀上可以理解爲 $f$ 在點 $c$ 處的一個微小改變量，相應地 $u$ 則是 $f$ 的自變量的一個微小改變量，常記作 $dc$ ，故微分的式子可以寫作 $df(c)=Adc$ （爲什麼自變量的改變量要採用微分符號d，實際上後面證明了一階微分的形式不變性後就知道了）
【注5】高階無窮小 $\omicron(||u||_2)$ 在 $u=0$ 處是無定義的，常補充定義 $\omicron(0)=0$ ，這樣定義中的關係式無論 $u$ 是否爲零都成立

可微是比可導更強的概念，我們在說一個多元向量值函數可導時，往往是指它的每個分量對自變量的每個分量的偏導都存在。再嚴格一點的，就是指函數的每個分量對自變量的任意方向導數都存在。可微一定可導，可導不一定可微（在一元數量值函數的情形下，這個結論退化成可微與可導等價）。下面給出偏導的概念並證明可微與可導間的關係。

偏導的定義：

定義2：設 $c\in R^n$ ，函數 $f:D\rightarrow R^m$ 在 $c$ 的某個半徑爲 $r>0$ 的鄰域 $U(c)$ 內有定義。設 $0\neq t<r$ ，稱極限（若存在的話） $\lim_{t\rightarrow 0}\frac{f_i(c+te_j)-f_i(c)}{t}$ （其中 $e_j$ 是第j個標準向量，其第 $j$ 個分量爲1，其他分量爲零）爲 $f$ 的分量 $f_i$ 在點 $c$ 處對自變量 $x\in R^n$ 的第 $j$ 個分量的偏導，記作 $\frac{\partial f_i}{\partial x_j}(c)$ 。
定義3（Jacobian矩陣）：函數 $f:D\rightarrow R^m(D\subseteq R^n)$ 在點 $c$ 處對自變量 $x$ 的Jacobian矩陣定義如下 $\frac{\partial f}{\partial x^T}(c)=\begin{bmatrix}\frac{\partial f_1}{\partial x_1}(c)&\frac{\partial f_1}{\partial x_2}(c)&...&\frac{\partial f_1}{\partial x_n}(c)\\\frac{\partial f_2}{\partial x_1}(c)&\frac{\partial f_2}{\partial x_2}(c)&...&\frac{\partial f_2}{\partial x_n}(c)\\...&...&...&...\\\frac{\partial f_m}{\partial x_1}(c)&\frac{\partial f_m}{\partial x_2}(c)&...&\frac{\partial f_m}{\partial x_n}(c)\end{bmatrix}$
【注1】當 $f$ 是數量值函數時，Jacobian矩陣退化爲一維行向量，即 $f$ 的梯度的轉置（梯度常常寫作列向量）；需要注意的是，Jacobian矩陣的第i行就是 $f$ 的第i個分量 $f_i$ 的梯度的轉置；當 $f$ 是一元數量值函數時，Jacobian矩陣退化爲一元情形下的導數的概念。
【注2】需要區分Jacobian矩陣和梯度矩陣的概念：梯度矩陣是Jacobian矩陣的轉置

可微與可導間的關係：

定理1：設 $c\in R^n$ ，若 $f$ 在點 $c$ 處可微，則 $f$ 在 $c$ 處的Jacobian矩陣存在，且導數矩陣 $A(c)=\frac{\partial f}{\partial x^T}(c)$ 。
證明：
根據可微的定義，存在 $r>0$ ，對任意 $u$ 滿足 $0<||u||_2<r$ ，有 $f(c+u)-f(c)=A(c)u+\omicron (||u||_2)$ ，故 $\lim_{u\rightarrow 0}\frac{f(c+u)-f(c)-A(c)u}{||u||_2}=0$ 令 $u=te_j,t<r$ ，則 $\lim_{t\rightarrow 0}\frac{f(c+te_j)-f(c)-tA(c)e_j}{t}=0$ 故對任意 $i=1,2,...,m$ 及 $j=1,2,...,n$ 有 $\frac{\partial f_i}{\partial x_j}|_c=\lim_{t\rightarrow 0}\frac{f_i(c+te_j)-f_i(c)}{t}=e_i^TA(c)e_j=a_{ij}$ 其中 $a_{ij}$ 是導數矩陣 $A(c)$ 的 $(i,j)$ 元素。得證。

這個定理告訴我們，可微一定可導，且導數矩陣就是Jacobian矩陣。可導不一定可微，有很多反例，這裏不再列舉。反向傳播算法是以複合函數鏈式求導法則爲基礎的，實際上，鏈導法是複合函數微分法則的一個附帶結果，下面給出複合函數微分法則，並導出複合函數的鏈導法則。

定理2：若函數 $f:D_f\rightarrow R^m(D_f\subseteq R^n)$ 在點 $a$ 處可微，函數 $g:D_g\rightarrow R^r(D_g\supseteq R(f))$ 在點 $b=f(a)$ 處可微，則複合函數 $g\circ f$ 在點 $a$ 處可微，且 $dg(f(a))=B(b)A(a)da$ ，其中 $B(b)$ 是 $g$ 在點 $b$ 處的導數， $A(a)$ 是 $f$ 在點 $a$ 處的導數
證明：（下面涉及到的所有高階無窮小都在點 $0$ 處補充定義 $\omicron(0)=0$ ）
由可微的定義，存在半徑爲 $r_1>0$ 的鄰域 $U(a)$ ，使得任意 $||u||_2<r_1$ 有 $f(a+u)-f(a)=A(a)u+\omicron_1 (||u||_2)\qquad (1)$ 存在半徑爲 $r_2>0$ 的鄰域 $U(b)$ ，其中 $b=f(a)$ ，使得任意 $||v||_2<r_2$ 有 $g(b+v)-g(b)=B(b)v+\omicron_2 (||v||_2)\qquad (2)$ 令 $\Delta f=f(a+u)-f(a)$ ，令（1）式兩端 $u\rightarrow 0$ 得到 $\Delta f\rightarrow 0$ ，故 $||\Delta f||_2\rightarrow 0$ ，由極限的定義知存在 $r_3>0$ 使得任意 $||u||_2<r_3$ 有 $||\Delta f||_2<r_2$ 。由（2）知可將 $v=\Delta f$ 代入，得 $g(b+\Delta f)-g(b)=B(b)\Delta f+\omicron_2 (||\Delta f||_2)$ ，即 $g(f(a+u))-g(f(a))=B(b)A(a)u+\alpha$ 對任意 $||u||_2<\min\{r_1,r_3\}$ 成立，其中 $\alpha=B(b)\omicron_1 (||u||_2)+\omicron_2(||\Delta f||_2)$ 。要證明 $g\circ f$ 在點 $a$ 處可微，只需證明 $\lim_{u\rightarrow 0}\frac{\alpha}{||u||_2}=0$ 即可。由於 $\lim_{u\rightarrow 0}B(b)\frac{\omicron_1(||u||_2)}{||u||_2}=0$ ，故只需證明 $\lim_{u\rightarrow 0}\frac{\omicron_2(||\Delta f||_2)}{||u||_2}=0$ 。引入函數 $Q(u)=\begin{cases}\frac{\omicron_2(||\Delta f||_2)}{||\Delta f||_2}&\Delta f\neq 0\\0&\Delta f=0\end{cases}$ ，其中 $||u||_2<\min\{r_1,r_3\}$ ，可以證明當 $u\rightarrow 0$ 時 $Q(u)\rightarrow 0$ ，此處略去，證明見註釋。由於 $\frac{\omicron_2(||\Delta f||_2)}{||u||_2}=Q(u)\frac{||\Delta f||_2}{||u||_2}$ ， $\frac{||\Delta f||_2}{||u||_2}\leqslant \frac{||A(a)u||_2}{||u||_2}+\frac{||\omicron_1(||u||_2)||_2}{||u||_2}$ ，由矩陣不等式 $A(a)^TA(a)\leqslant \lambda(a)I$ ，其中 $\lambda(a)$ 是 $A(a)^TA(a)$ 的最大特徵值，得到 $\frac{||A(a)u||_2}{||u||_2}\leqslant \sqrt{\lambda(a)}$ ，又由 $\lim_{u\rightarrow 0}\frac{||\omicron_1(||u||_2)||_2}{||u||_2}=0$ ，得到 $\frac{||\omicron_1(||u||_2)||_2}{||u||_2}$ 是局部有界的，故 $\frac{||\Delta f||_2}{||u||_2}$ 是局部有界的。綜上有 $\lim_{u\rightarrow 0}\frac{\omicron_2(||\Delta f||_2)}{||u||_2}=0$ ，證畢。
【注1】矩陣不等式見矩陣的正定性
【注2】 $\lim_{u\rightarrow 0}Q(u)=0$ 的證明：
利用 $lim_{u\rightarrow 0}\Delta f=0$ 以及 $lim_{v\rightarrow 0}\frac{\omicron_2(||v||_2)}{||v||_2}=0$ 這兩個條件即可。 $\forall \epsilon>0,\exist \delta>0,\forall v$ 滿足 $0<||v||_2<\delta$ 都有 $||\frac{\omicron_2(||v||_2)}{||v||_2}||_2<\epsilon$ ， $\exist \delta_1>0,\forall u$ 滿足 $0<||u||_2<\delta_1$ 都有 $||\Delta f||_2<\delta$ ，故由如下結論： $\forall \epsilon >0,\exist \delta_1>0,\forall u$ 滿足 $0<||u||_2<\delta_1$ ，若 $\Delta f=0$ ，則 $||Q(u)||_2=0<\epsilon$ ，若 $0<||\Delta f||_2<\delta$ ，則 $||Q(u)||_2=||\frac{\omicron_2(||\Delta f||_2)}{||\Delta f||_2}||_2<\epsilon$ ，即無論 $||\Delta f||_2$ 是否爲零都有 $||Q(u)||_2<\epsilon$ ，故 $\lim_{u\rightarrow 0}Q(u)=0$ 。

下面由複合函數的微分法則導出複合函數的鏈式求導法則：

推論：若函數 $y=f(x)(D_f\subseteq R^n,y\in R^m)$ 在點 $a$ 處可微，函數 $z=g(y)(D_g\supseteq R(f),z\in R^r)$ 在點 $b=f(a)$ 處可微，則複合函數 $g\circ f$ 在點 $a$ 處可微，且其在點 $a$ 處的導數 $\frac{\partial z}{\partial x^T}(a)=\frac{\partial z}{\partial y^T}(b)\frac{\partial y}{\partial x^T}(a)$

通過一階微分的形式不變性，我們可以通過求微分來計算複合函數的導數，這在很多情況下是有用的，例如，在矩陣求導中通過計算微分，可以一次性得到多個參變量矩陣的導數。下面給出一階微分的形式不變性：

一階微分的形式不變性：
設函數 $f:D_f\rightarrow R^m(D_f\subseteq R^n)$ 在點 $a$ 處可微，其微分爲 $df(a)=A(a)da$ ，函數 $g:D_g\rightarrow R^r(D_g\supseteq R(f))$ 在點 $b=f(a)$ 處可微，其微分爲 $dg(b)=B(b)db$ ，則由複合函數的微分法則知，函數 $g\circ f$ 在點 $a$ 處的微分爲 $dg(f(a))=B(b)A(a)da$ 。注意到 $df(a)=A(a)da$ ，於是 $dg(f(a))=B(b)A(a)da=B(b)df(a)$ ，即 $dg(b)=B(b)db$ ，這恰好就是 $g$ 在 $b$ 處的微分的形式。這說明無論函數 $g$ 的變量是自變量還是中間變量，其微分形式就和 $g$ 只有自變量時一樣（這裏可以這樣理解：給定一個函數，其微分是一個線性函數，即一個線性映射，即使該函數與其他函數複合，這並不影響該函數本身的微分這個線性映射）。
【注】一階微分的形式不變性說明了爲什麼自變量的微小增量也用微分符號d表示： $df(a)=A(a)da$ 中， $da$ 既能表示 $f$ 在 $a$ 處的微分這個線性函數的自變量（這是人爲規定的），又能表示把 $f$ 的自變量當成因變量（中間變量），其取值爲 $a$ 時的微小增量（這是由形式不變性決定的）。

對於函數有多個自變量的情況，例如 $y=f(x_1,x_2,...,x_n)$ ，其中 $x_1,x_2,...,x_n$ 分別是 $m_1,m_2,...,m_n$ 維向量，實際上可以看成只有一個自變量 $x$ ，其中 $x=(x_1^T,x_2^T,...,x_n^T)^T\in R^{\sum_{i=1}^nm_i}$ , $f$ 的微分的定義仍適用。實際上，可以把 $f$ 的微分的定義等價地拆開寫成 $\begin{aligned}&f(x_1+u_1,x_2+u_2,...,x_n+u_n)-f(x_1,x_2,...,x_n)\\=&A_1u_1+A_2u_2+...+A_nu_n+\omicron(\sqrt{||u_1||_2^2+||u_2||_2^2+...+||u_n||_2^2})\end{aligned}$ 相應地微分寫成 $dy=A_1dx_1+A_2dx_2+...+A_ndx_n=Adx$ ，其中 $A_i$ 是 $y$ 對 $x_i$ 的導數， $A=\begin{bmatrix}A_1&A_2&...&A_n\end{bmatrix},dx=(dx_1^T,dx_2^T,...,dx_n^T)^T$ 。

對於函數有多箇中間變量的情況，複合函數的微分法則與一階微分的形式不變性仍適用。例如 $z=g(y_1,y_2,...,y_m)$ ， $y_i=f_i(x_1,x_2,...,x_n)$ ，若 $f_1,f_2,...,f_m$ 都在點 $x_0=(c_1^T,c_2^T,..,c_n^T)^T$ 可微， $g$ 在點 $(f_1^T(x_0),f_2^T(x_0),...,f_m^T(x_0))^T$ 可微，那麼複合函數 $z=g(f_1(x),f_2(x),...,f_m(x)),x=(x_1^T,x_2^T,..,x_n^T)^T$ 是否在點 $x_0$ 可微呢？答案是肯定的，有如下定理保證：

定理3：函數 $f:D_f\rightarrow R^m(D_f\subseteq R^n)$ 在點 $a$ 處可微的充要條件爲 $f$ 的每個分量都在點 $a$ 處可微（證明略）
【注】比較 $f$ 的微分 $df$ 和分量 $f_i$ 的微分 $df_i$ 可知， $df=(df_1,df_2,...,df_m)^T$

對於上述情形，利用該定理可知 $f_i$ 的任意分量都在 $x_0$ 可微（ $i=1,2,..,m$ ），再利用該定理知 $f=(f_1^T,f_2^T,...,f_m^T)^T$ 在 $x_0$ 可微，於是由複合函數微分法則得到上述結論。由於多箇中間變量可以看成只有一箇中間變量，故一階微分的形式不變性仍成立。

例1：設 $z=f(x,y)=x^TAy,x\in R^m,y\in R^n$ ，求 $\frac{\partial z}{\partial x}$ 和 $\frac{\partial z}{\partial y}$ 。
法1：根據梯度矩陣（梯度）的定義
$\begin{aligned}\frac{\partial z}{\partial x}&=\begin{bmatrix}\frac{\partial z}{\partial x_1}\\\vdots\\\frac{\partial z}{\partial x_m}\end{bmatrix}\\&=\begin{bmatrix}\frac{\partial \sum_ia_iyx_i}{\partial x_1}\\\vdots\\\frac{\partial \sum_ia_iyx_i}{\partial x_m}\end{bmatrix}\\&=\begin{bmatrix}a_1y\\\vdots\\a_my\end{bmatrix}\\&=Ay\end{aligned}$ 式中 $a_i$ 是矩陣 $A$ 的第i行。同理可得 $\frac{\partial z}{\partial y}=A^Tx$ 。
法2：利用一階微分的形式不變性
根據一階微分的形式不變性容易證明以下幾個微分公式：

$d(x^Ty)=y^Tdx+x^Tdy$
$d(Ax)=Adx$

所以 $d(x^TAy)=(Ay)^Tdx+x^Td(Ay)=(Ay)^Tdx+x^TAdy=(Ay)^Tdx+(A^Tx)^Tdy$ ，由微分與導數的關係和梯度與導數的關係得 $\frac{\partial z}{\partial x}=Ay$ 和 $\frac{\partial z}{\partial y}=A^Tx$ 。

例2：設 $z=f(x,y)=(Ax)\odot(By),x\in R^m,y\in R^n,z\in R^t$ ，求 $\frac{\partial z}{\partial x^T}$ 和 $\frac{\partial z}{\partial y^T}$
【注】 $\odot$ 是Hardamard積，即逐元素乘積
法1：根據Jacobian矩陣（導數）的定義
$\begin{aligned}\frac{\partial z}{\partial x^T}&=\begin{bmatrix}\frac{\partial z_1}{\partial x_1}&\cdots&\frac{\partial z_1}{\partial x_m}\\\vdots&\ddots&\vdots\\\frac{\partial z_t}{\partial x_1}&\cdots&\frac{\partial z_t}{\partial x_m}\end{bmatrix}\\&=\begin{bmatrix}\frac{\partial (a_1x)(b_1y)}{\partial x_1}&\cdots&\frac{\partial (a_1x)(b_1y)}{\partial x_m}\\\vdots&\ddots&\vdots\\\frac{\partial (a_tx)(b_ty)}{\partial x_1}&\cdots&\frac{\partial (a_tx)(b_ty)}{\partial x_m}\end{bmatrix}\\&=\begin{bmatrix}a_{11}(b_1y)&\cdots&a_{1m}(b_1y)\\\vdots&\ddots&\vdots\\a_{t1}(b_ty)&\cdots&a_{tm}(b_ty)\end{bmatrix}\\&=diag(By)A\end{aligned}$ 其中 $a_i,b_i$ 分別是 $A$ ， $B$ 的第i行。同理可得 $\frac{\partial z}{\partial y^T}=diag(Ax)B$ 。
法2：利用一階微分的形式不變性
根據一階微分的形式不變性可以證明如下微分公式：

$d(x\odot y)=y\odot dx+x\odot dy=diag(y)dx+diag(x)dy$

所以 $dz=(By)\odot d(Ax)+(Ax)\odot d(By)=(By)\odot (Adx)+(Ax)\odot (Bdy)=diag(By)Adx+diag(Ax)Bdy$ ，故由微分與導數的關係得 $\frac{\partial z}{\partial x^T}=diag(By)A$ 和 $\frac{\partial z}{\partial y^T}=diag(Ax)B$ 。

矩陣對標量求導

矩陣對標量求導用的不多，只簡單提一下。
仿照定義1，我們可以寫出以標量爲自變量的矩陣函數的微分的定義，但由定理3啓發，我們可以給出一個等價的定義：

定義4：若矩陣函數 $A(t)$ 的每個元素 $a_{ij}(t)$ 在點 $t_0\in R$ 處可微，則稱 $A(t)$ 在 $t_0$ 處可微，且其在該點的導數爲 $\frac{\partial A}{\partial t}(t_0)=\begin{bmatrix}\frac{\partial a_{11}}{\partial t}(t_0)&\cdots&\frac{\partial a_{1n}}{\partial t}(t_0)\\\vdots&\ddots&\vdots\\\frac{\partial a_{m1}}{\partial t}(t_0)&\cdots&\frac{\partial a_{mn}}{\partial t}(t_0)\end{bmatrix}$
【注】 $A(t)$ 在 $t_0$ 處的微分寫作 $dA(t_0)=(dt_0)\frac{\partial A}{\partial t}(t_0)$
定理4（鏈式法則）：設 $A=A(\alpha)$ 在 $\alpha=\alpha_0$ 處可微，標量 $\alpha(t)$ 在 $t_0$ 處可微， $\alpha_0=\alpha(t_0)$ ，則 $A(\alpha(t))$ 在 $t_0$ 可微，且 $\frac{\partial A\circ\alpha}{\partial t}(t_0)=\frac{\partial \alpha}{\partial t}(t_0)\frac{\partial A}{\partial t}(\alpha(t_0))$ 。

矩陣對標量求導有一些簡單的公式，在此作爲例子：
設 $A(t),B(t)$ 在 $t_0$ 處可微，則有

若 $A$ ， $B$ 可加，則 $\frac{\partial (A+B)}{\partial t}(t_0)=\frac{\partial A}{\partial t}(t_0)+\frac{\partial B}{\partial t}(t_0)$
若 $A$ ， $B$ 可乘，則 $\frac{\partial AB}{\partial t}(t_0)=\frac{\partial A}{\partial t}(t_0)B(t_0)+A(t_0)\frac{\partial B}{\partial t}(t_0)$
設標量函數 $\alpha(t)$ 在 $t_0$ 處可微，則 $\frac{\partial \alpha A}{\partial t}(t_0)=\frac{\partial \alpha}{\partial t}(t_0)B(t_0)+\alpha(t_0)\frac{\partial B}{\partial t}(t_0)$

標量對矩陣求導

這部分內容纔是機器學習中需要用到的矩陣微分的核心內容。神經網絡往往以一個標量值的代價函數作爲優化目標，網絡參數往往是矩陣形式的，前向傳播的過程可以視爲計算一個以多個矩陣爲自變量的複合函數的值，反向傳播的過程可以視爲運用鏈式法則（或複合函數的微分法則）計算該標量函數對各個矩陣參數的導數。

鑑於以（多個）矩陣爲自變量的標量函數本質上是多元數量值函數，我們先研究多元數量值函數的微分和導數的定義，然後將它們推廣。由於多元數量值函數的微分可以視作多元向量值函數的微分的特例，因此在定義1中令 $m=1$ ，就得到了多元數量值函數微分的概念：

定義5：設 $c\in R^n$ ，函數 $f:D\rightarrow R$ 在 $c$ 的某個半徑爲 $r>0$ 的鄰域 $U(c)$ 內有定義。若存在向量 $a\in R^{n}$ ，使得對於任意的 $u\in \mathring U(0)$ （ $0\in R^n$ 是零向量，去心鄰域 $\mathring U(0)$ 的半徑爲 $r$ ）有如下關係成立： $f(c+u)-f(c)=a^Tu+\omicron(||u||_2)=\sum_{i}a_iu_i+\omicron(\sqrt{\sum_{i}u_i^2})$ ，其中 $\omicron(||u||_2)$ 是當 $u\rightarrow 0$ 時的一個高階無窮小，則稱 $f$ 在點 $c$ 處是可微的，稱 $u$ 的線性函數 $a^Tu$ 爲 $f$ 在點 $c$ 處的微分，記作 $df(c)=a^Tu$ ，並稱 $a$ 是 $f$ 在點 $c$ 處的梯度向量，簡稱梯度。

注意到微分的本質是把函數局部線性化，得到函數在某一點的鄰域內的線性主部，故很容易將定義5推廣到以矩陣爲自變量的標量函數的情形：

定義6：設 $(a_{ij})_{m\times n}=A\in R^{m\times n}$ ，存在 $r>0$ ，數量值函數 $y=f(X)$ 當 $||X-A||_F<r$ 時有定義。若存在 $(b_{ij})_{m\times n}=B\in R^{m\times n}$ ，使得對於任意的 $(u_{ij})_{m\times n}=U\in R^{m\times n}$ 滿足 $0<||U||_F<r$ 有如下關係成立： $f(A+U)-f(A)=\sum_{ij}b_{ij}u_{ij}+\omicron(\sqrt{\sum_{ij}u_{ij}^2})=tr(B^TU)+\omicron(||U||_F)$ ，則稱 $f$ 在點 $A$ 處是可微的，稱 $U$ 的 $m\times n$ 個元素的線性函數 $tr(B^TU)$ 爲 $f$ 在點 $A$ 處的微分，記作 $df(A)=tr(B^TU)$ ，並稱 $B$ 是 $f$ 在點 $A$ 處的梯度矩陣，簡稱梯度。 $U$ 是自變量在 $A$ 處的增量，常記作 $U=dA$ ，即 $df(A)=tr(B^TdA)$
【注】 $tr(\bullet)$ 是指矩陣的跡； $||\bullet||_F$ 是指矩陣的Frobenius範數，當矩陣爲行向量或列向量時， $||\bullet||_F$ 就是向量的Frobenius範數，即2範數，矩陣範數的內容見矩陣的條件數

用類似定理1的證明方法，可以證明 $B=\frac{\partial f}{\partial X}(A)=(\frac{\partial f}{\partial x_{ij}}(A))_{m\times n}$ 即梯度矩陣與 $f$ 對 $X$ 的偏導相等（需要注意的是，以矩陣爲自變量的實值函數也有Jacobian矩陣的定義，Jacobian矩陣是梯度矩陣的轉置）
利用該結論可以證明如下微分公式：

$d|X|=tr(X^*dX)$ ，其中 $|X|$ 是方陣 $X$ （階數大於等於2）的行列式， $X^*$ 是 $X$ 的伴隨矩陣
證：
由行列式的定義， $|X|=\sum_jx_{ij}A_{ij}$ 對任意 $i=1,2,...,n$ 成立，其中 $A_{ij}$ 是 $x_{ij}$ 的代數餘子式（注意 $x_{ij}$ 不是 $A_{ij}$ 的自變量，即 $A_{ij}$ 的取值與 $x_{ij}$ 無關），則 $\frac{\partial |X|}{\partial x_{ij}}=A_{ij}$ ，故 $\frac{\partial |X|}{\partial X}=(X^*)^T$ ， $d|X|=tr(X^*dX)$

還可以證明如下導數公式：
設 $f(X),g(X)$ 是以矩陣 $X$ 爲自變量的數量值函數，若 $f$ 和 $g$ 在 $A$ 處可微，則 $f(X)g(X),f(X)+g(X)$ 在 $A$ 處可微，且：

$\frac{\partial f(X)g(X)}{\partial X}=\frac{\partial f(X)}{\partial X}g(X)+f(X)\frac{\partial g(X)}{\partial X}$
$\frac{\partial f(X)\pm g(X)}{\partial X}=\frac{\partial f(X)}{\partial X}\pm\frac{\partial g(X)}{\partial X}$

現在我們依次考慮兩種複合函數的情形：

內層函數是以矩陣爲自變量的數量值函數，外層函數是一元數量值函數
內層函數是以矩陣爲自變量的矩陣值函數（稱爲矩陣函數），外層函數是以矩陣爲自變量的數量值函數

第一種情形：

定理5：設 $y=f(X),y\in R, X\in R^{m\times n}$ 在點 $A$ 處可微， $z=g(y),z\in R,y\in R$ 在點 $b=f(A)$ 處可微，則 $z=g(f(X))$ 在點 $A$ 處可微，且在點 $A$ 處的微分爲 $dg(f(A))=tr((g'(b)\frac{\partial f}{\partial X}(A))^TdX)$

證明思路與定理2是類似的，證明的關鍵在於 $lim_{\Delta X\rightarrow O}\frac{\omicron(|\Delta y|)}{||\Delta X||_F}=0$ ，基本思路是改寫爲 $lim_{\Delta X\rightarrow O}\frac{\omicron(|\Delta y|)}{|\Delta y|}\frac{|\Delta y|}{||\Delta X||_F}=0$ ，證明 $lim_{\Delta X\rightarrow O}\frac{\omicron(|\Delta y|)}{|\Delta y|}=0$ 且 $\frac{|\Delta y|}{||\Delta X||_F}$ 局部有界即可。利用絕對值不等式放縮， $|\Delta y|\leqslant|tr((\frac{\partial f}{\partial X}(A))^T\Delta X)|+|\omicron(||\Delta X)||_F)|$ ， $\frac{|\omicron(||\Delta X)||_F)|}{||\Delta X||_F}$ 局部有界是顯然的，而 $\frac{|tr((\frac{\partial f}{\partial X}(A))^T\Delta X)|}{||\Delta X||_F}\leqslant\sum_{ij}\frac{|(\frac{\partial f}{\partial X_{ij}}(A_{ij})||\Delta X_{ij}|}{||\Delta X||_F}\leqslant\sum_{ij}|(\frac{\partial f}{\partial X_{ij}}(A_{ij})|$ ，也是局部有界的。

第二種情形：
需要考慮矩陣函數的微分，下面給出矩陣函數的微分的定義。
這裏不引入向量化和kronecker積的運算，在定義6的基礎上仿照定義4的方式給出矩陣函數的微分的定義：

定義7：設有矩陣函數 $Y=F(X),X\in R^{m\times n},Y\in R^{p\times q}$ ，若 $F(X)$ 的每個元素 $f_{ij}(X),i=1,2,...,p,j=1,2,...,q$ 都在點 $A$ 處可微，則稱 $F(X)$ 在點 $A$ 處可微，且點 $A$ 處的微分爲 $dF(A)=\begin{bmatrix}df_{11}(A)&...&df_{1q}(A)\\\vdots&\ddots&\vdots\\df_{p1}(A)&\cdots&df_{pq}(A)\end{bmatrix}$ 該矩陣稱爲微分矩陣

複合矩陣函數的微分法則是成立的（從而微分的形式不變性也是成立的），但在不使用vec+kronecker計算的情況下應該是無法證明的，這個在後面的博客中再說（vec+kronecker可以參考數學-矩陣計算（2）矩陣函數微積分前奏）

下面考慮有多個矩陣自變量的情況：

定義8：設 $A_i\in R^{m_i\times n_i},i=1,2,...,k$ ，存在 $r>0$ ，數量值函數 $y=f(X_1,X_2,...,X_k),X_i\in R^{m_i\times n_i}$ 當 $\sqrt{\sum_{i}||X_i-A_i||_F^2}<r$ 時有定義。若存在 $B_i\in R^{m_i\times n_i},i=1,2,...,k$ ，使得對於任意的 $U_i\in R^{m_i\times n_i},i=1,2,...,k$ 滿足 $0<\sqrt{\sum_i||U_i||_F^2}<r$ 有如下關係成立： $f(A_1+U_1,A_2+U_2,...,A_k+U_k)-f(A_1,A_2,...,A_k)=\sum_itr(B_i^TU_i)+\omicron(\sqrt{\sum_i||U_i||_F^2})$ ，則稱 $f$ 在 $(A_1,A_2,...,A_k)$ 處是可微的，記作 $df(A_1,...A_k)=\sum_itr(B_i^TdA_i)$

可以證明定義中的 $B_i$ 恰好是 $f$ 對 $X_i$ 在 $A_i$ 處的偏導 $\frac{\partial f}{\partial X_i}(A_i)$ ，微分形式不變性等仍成立，不再贅述。
下面根據定義7以及一階微分的形式不變性證明若干常用的微分矩陣的計算公式，前面的例子中出現的微分公式都可以視作下面的公式的特例：（以下設 $\alpha\in R$ 爲常數， $\beta \in R$ 爲變量， $A=(a_{ij})$ 爲常矩陣， $X=(x_{ij})$ , $Y=(y_{ij})$ 爲變量，這三個矩陣的大小視公式中出現的運算而定）

$dA=O$
證：
$dA=\begin{bmatrix}da_{11}&\cdots&da_{1n}\\\vdots&\ddots&\vdots\\da_{m1}&\cdots&da_{mn}\end{bmatrix}=O$
$d(\alpha X)=\alpha dX$
證：
$d(\alpha X)=\begin{bmatrix}d(\alpha x_{11})&\cdots&d(\alpha x_{1n})\\\vdots&\ddots&\vdots\\d(\alpha x_{m1})&\cdots&d(\alpha x_{mn})\end{bmatrix}=\begin{bmatrix}\alpha dx_{11}&\cdots&\alpha dx_{1n}\\\vdots&\ddots&\vdots\\\alpha dx_{m1}&\cdots&\alpha dx_{mn}\end{bmatrix}=\alpha dX$
$d(\beta X)=(d\beta)X+\beta dX$
證：
$d(\beta X)=\begin{bmatrix}d(\beta x_{11})&\cdots&d(\beta x_{1n})\\\vdots&\ddots&\vdots\\d(\beta x_{m1})&\cdots&d(\beta x_{mn})\end{bmatrix}=\begin{bmatrix}x_{11}d\beta+\beta dx_{11}&\cdots&x_{1n}d\beta+\beta dx_{1n}\\\vdots&\ddots&\vdots\\x_{m1}d\beta+\beta dx_{m1}&\cdots&x_{mn}d\beta+\beta dx_{mn}\end{bmatrix}=(d\beta)X+\beta dX$
$dX^T=(dX)^T$
證：
$dX^T=\begin{bmatrix}dx_{11}&\cdots&dx_{m1}\\\vdots&\ddots&\vdots\\dx_{1n}&\cdots&dx_{mn}\end{bmatrix}=(dX)^T$
$dtr(X)=tr(dX)$
證：
$dtr(X)=d\sum_ix_{ii}=\sum_idx_{ii}=tr(dX)$
設 $F$ 是一個逐元素函數，即 $F(X)=\begin{bmatrix}f(x_{11})&\cdots&f(x_{1n})\\\vdots&\ddots&\vdots\\f(x_{m1})&\cdots&f(x_{mn})\end{bmatrix},f:R\rightarrow R$ ，則 $dF(X)=F'(X)\odot dX$ ，其中 $F'$ 也是逐元素函數
證：
$dF(X)=\begin{bmatrix}df(x_{11})&\cdots&df(x_{1n})\\\vdots&\ddots&\vdots\\df(x_{m1})&\cdots&df(x_{mn})\end{bmatrix}=\begin{bmatrix}f'(x_{11})dx_{11}&\cdots&f'(x_{1n})dx_{1n}\\\vdots&\ddots&\vdots\\f'(x_{m1})dx_{m1}&\cdots&f'(x_{mn})dx_{mn}\end{bmatrix}=F'(X)\odot dX$
$d(X\pm Y)=dX\pm dY$
證：
$d(X\pm Y)=\begin{bmatrix}d(x_{11}\pm y_{11})&...&d(x_{1n}\pm y_{1n})\\\vdots&\ddots&\vdots\\d(x_{m1}\pm y_{m1})&...&d(x_{mn}\pm y_{mn})\end{bmatrix}=\begin{bmatrix}dx_{11}\pm dy_{11}&...&dx_{1n}\pm dy_{1n}\\\vdots&\ddots&\vdots\\dx_{m1}\pm dy_{m1}&...&dx_{mn}\pm dy_{mn}\end{bmatrix}=dX\pm dY$
$d(XY)=(dX)Y+XdY$
證：
由於 $(d(XY))_{ij}=d\sum_kx_{ik}y_{kj}=\sum_k(y_{kj}dx_{ik}+x_{ik}dy_{kj})=((dX)Y)_{ij}+(XdY)_{ij}$ ，故 $d(XY)=(dX)Y+XdY$ 。
$d(X\odot Y)=dX\odot Y+X\odot dY$
證：
由於 $(d(X\odot Y))_{ij}=d(x_{ij}y_{ij})=y_{ij}dx_{ij}+x_{ij}dy_{ij}=(dX\odot Y)_{ij}+(X\odot dY)_{ij}$ ，故 $d(X\odot Y)=dX\odot Y+X\odot dY$ 。
【注】 $\odot$ 是逐元素乘積
$d(X\oslash Y)=(dX\odot Y-X\odot dY)\oslash(Y\odot Y)$
證：
由於 $(d(X\oslash Y))_{ij}=d\frac{x_{ij}}{y_{ij}}=\frac{y_{ij}dx_{ij}-x_{ij}dy_{ij}}{y_{ij}^2}=Z_{ij}$ ，其中 $Z=(dX\odot Y-X\odot dY)\oslash(Y\odot Y)$ ，故 $d(X\oslash Y)=Z=(dX\odot Y-X\odot dY)\oslash(Y\odot Y)$ 。
【注】 $\oslash$ 是逐元素除法

上面的公式基本就夠用了，這些公式可以用來計算複合函數等複雜函數的微分矩陣，進而計算梯度矩陣/偏導矩陣。下面舉幾個微分矩陣和標量對矩陣求導的例子：（我們當然可以直接根據Jacobian矩陣或梯度矩陣的定義計算，但下面利用定義7/8+上面的微分公式+微分形式不變性來推導這些結果）
【注】關於矩陣的跡的運算律參考鏈接。
微分矩陣：

$dX^{-1}=-X^{-1}(dX)X^{-1}$
證：
對 $X^{-1}X=I$ 兩邊微分，得 $(dX^{-1})X+X^{-1}dX=O$ ，用 $X^{-1}$ 右乘式的兩端，得 $dX^{-1}+X^{-1}(dX)X^{-1}=O$ ，即 $dX^{-1}=-X^{-1}(dX)X^{-1}$ 。
$d\ln(X)=dX \oslash X$ ，其中 $\ln(X)$ 是將以e爲底的對數函數逐元素應用到矩陣 $X$ 上
證：
$d\ln(X)=(1\oslash X)\odot dX=dX\oslash X$
$d\sigma(X)=\sigma(X)\odot\sigma(-X)\odot dX$ ，其中 $\sigma(X)$ 是將sigmoid函數逐元素應用到矩陣 $X$ 上
【注】sigmoid函數是神經網絡中常用的激活函數，定義爲 $\sigma:R\rightarrow R_+,\sigma(z)=\frac{1}{1+e^{-z}}$
證：
只需證明 $\forall z\in R,\sigma'(z)=\sigma(z)\sigma(-z)$ 。由sigmoid函數的定義得 $(1+e^{-z})\sigma(z)=1$ ，兩端微分得 $-e^{-z}\sigma(z)dz+(1+e^{-z})\sigma'(z)dz=0$ ，故 $-e^{-z}\sigma(z)+(1+e^{-z})\sigma'(z)=0$ ， $\sigma'(z)=\frac{e^{-z}\sigma(z)}{1+e^{-z}}=\frac{\sigma(z)}{1+e^{z}}=\sigma(z)\sigma(-z)$ 。
$dg(x)=\frac{1^Te^xdiag(e^x)-e^x(e^x)^T}{(1^Te^x)^2}dx$ ，其中 $g(x)=\frac{e^x}{1^Te^x},x\in R^n$ ， $e^x$ 是將以 $e$ 爲底的指數函數逐元素應用到向量 $x$ 上
【注】這裏定義的函數 $g$ 就是softmax函數，softmax函數是神經網絡中常用的激活函數，在分類問題中常用於輸出層得到概率分佈
證：
由 $g(x)=\frac{e^x}{1^Te^x},x\in R^n$ 得 $1^Te^xg(x)=e^x$ ，兩端微分得 $1^T(e^x\odot dx)g(x)+1^Te^xdg(x)=e^x\odot dx$ ，又因爲 $1^T(e^x\odot dx)=tr(1^T(e^x\odot dx))=tr((1\odot e^x)^Tdx)=(e^x)^Tdx$ ，故 $dg(x)=\frac{e^x\odot dx-(e^x)^Tdxg(x)}{1^Te^x}=\frac{diag(e^x)dx-g(x)(e^x)^Tdx}{1^Te^x}=\frac{1^Te^xdiag(e^x)-e^x(e^x)^T}{(1^Te^x)^2}dx$ 。

梯度矩陣/Jacobian矩陣：

$\frac{\partial tr(X)}{\partial X}=I$
證：
由 $dtr(X)=tr(dX)$ 及定義7即證。
$\frac{\partial tr(X^TX)}{\partial X}=2X$
證：
由 $d(tr(X^TX))=tr(d(X^TX))=tr((dX^T)X+X^TdX)=tr((dX)^TX)+tr(X^TdX)=2tr(X^TdX)$ 及定義7即證。
設 $y=g(x),x,y\in R^n$ ，其中 $g$ 是softmax函數，則 $\frac{\partial y}{\partial x^T}=\begin{bmatrix}y_1(1-y_1)&-y_1y_2&\cdots&-y_1y_n\\-y_2y_1&y_2(1-y_2)&\cdots&-y_2y_n\\\cdots&\cdots&\cdots&\cdots\\-y_ny_1&-y_ny_2&\cdots&y_n(1-y_n)\end{bmatrix}$
證：
利用 $dg(x)=\frac{1^Te^xdiag(e^x)-e^x(e^x)^T}{(1^Te^x)^2}dx$ （這個例子也可以直接根據Jacobian矩陣的定義計算）。 $\begin{aligned}\frac{\partial y}{\partial x^T}&=\frac{1^Te^xdiag(e^x)-e^x(e^x)^T}{(1^Te^x)^2}\\&=\frac{1}{(\sum_ie^{x_i})^2}(\sum_ie^{x_i}\begin{bmatrix}e^{x_1}&&&\\&e^{x_2}&&\\&&\cdots&\\&&&e^{x_n}\end{bmatrix}-\begin{bmatrix}e^{x_1}e^{x_1}&e^{x_1}e^{x_2}&\cdots&e^{x_1}e^{x_n}\\e^{x_2}e^{x_1}&e^{x_2}e^{x_2}&\cdots&e^{x_2}e^{x_n}\\\cdots&\cdots&\cdots&\cdots\\e^{x_n}e^{x_1}&e^{x_n}e^{x_2}&\cdots&e^{x_n}e^{x_n}\end{bmatrix})\\&=\begin{bmatrix} \frac{e^{x_1}}{\sum_ie^{x_i}}(1-\frac{e^{x_1}}{\sum_ie^{x_i}})&-\frac{e^{x_1}}{\sum_ie^{x_i}}\frac{e^{x_2}}{\sum_ie^{x_i}}&\cdots&-\frac{e^{x_1}}{\sum_ie^{x_i}}\frac{e^{x_n}}{\sum_ie^{x_i}}\\-\frac{e^{x_2}}{\sum_ie^{x_i}}\frac{e^{x_1}}{\sum_ie^{x_i}}&\frac{e^{x_2}}{\sum_ie^{x_i}}(1-\frac{e^{x_2}}{\sum_ie^{x_i}})&\cdots&-\frac{e^{x_2}}{\sum_ie^{x_i}}\frac{e^{x_n}}{\sum_ie^{x_i}}\\\cdots&\cdots&\cdots&\cdots\\-\frac{e^{x_n}}{\sum_ie^{x_i}}\frac{e^{x_1}}{\sum_ie^{x_i}}&-\frac{e^{x_n}}{\sum_ie^{x_i}}\frac{e^{x_2}}{\sum_ie^{x_i}}&\cdots&\frac{e^{x_n}}{\sum_ie^{x_i}}(1-\frac{e^{x_n}}{\sum_ie^{x_i}})\end{bmatrix}\\&=\begin{bmatrix}y_1(1-y_1)&-y_1y_2&\cdots&-y_1y_n\\-y_2y_1&y_2(1-y_2)&\cdots&-y_2y_n\\\cdots&\cdots&\cdots&\cdots\\-y_ny_1&-y_ny_2&\cdots&y_n(1-y_n)\end{bmatrix}\end{aligned}$

應用

線性迴歸問題的最小二乘解

機器學習中的線性迴歸問題表述如下：
設有m個樣本 $s_1,s_2,...,s_m$ （爲表示方便，假設 $s_i$ 是行向量），每個樣本包含n個特徵（ $s_i^T\in R^n$ ），樣本的標籤分別是 $y_1,y_2,...,y_m\in R$ 。現要求得一線性模型 $y_i=s_i\theta+b$ 對於任意i成立，其中 $\theta\in R^n$ 和 $b\in R$ 是要求解的參數。該問題可寫成如下矩陣形式：設 $a_i=\begin{bmatrix}1&s_i\end{bmatrix}$ ， $A=\begin{bmatrix}a_1\\a_2\\...\\a_m\end{bmatrix}$ （A稱爲設計矩陣）， $x=\begin{bmatrix}b\\\theta\end{bmatrix}$ ， $y=\begin{bmatrix}y_1\\y_2\\...\\y_m\end{bmatrix}$ ，求解參數向量x使得 $Ax=y$ 。可見線性迴歸問題實質上就是求解一個線性方程組。

在前面的博客中，曾給出線性方程組最小二乘解的廣義逆解法和投影矩陣解法，並證明了這些方法的正確性。現在利用矩陣微分的方法解決這個問題：
根據最小二乘解的定義，我們要最小化 $f(x)=||Ax-y||_2$ ，這等價於最小化 $z=f(x)^2=||Ax-y||_2^2=(Ax-y)^T(Ax-y)$ 。 $dz=(Adx)^T(Ax-y)+(Ax-y)^TAdx=2(Ax-y)^TAdx$ ，得 $\frac{\partial z}{\partial x}=2A^T(Ax-y)$ 。 $d\frac{\partial z}{\partial x}=2A^TAdx$ ，故Hessian矩陣爲 $\frac{\partial}{\partial x^T}(\frac{\partial z}{\partial x})=2A^TA$ ，是對稱半正定的，故 $z$ 是凸函數。令 $\frac{\partial z}{\partial x}=0$ 即得到全局最優解，得正規方程 $A^TAx=A^Ty$ ，這就證明了求最小二乘解等價於解正規方程。

L2正則化情形

正則化是一種提高模型泛化能力的技術，通過“權值衰減”的方式，緩解模型的過擬合問題。在線性迴歸中討論L2正則化，不僅是因爲這項技術能夠增強模型的泛化能力，還因爲對於線性迴歸問題來說，只要進行L2正則化，那麼最優解存在且唯一。
令 $S=\begin{bmatrix}s_1\\s_2\\...\\s_m\end{bmatrix}$ ， $P=\begin{bmatrix}0&0_{1\times n}\\0_{n\times 1}&I_n\end{bmatrix}$ ，則 $A=\begin{bmatrix}1_{m\times 1}&S\end{bmatrix}$ ， $\theta=Px$ 。加入正則化項 $\lambda ||\theta||_2^2,\lambda>0$ 後，我們要優化的函數爲 $f(x)=||Ax-y||^2_2+\lambda ||\theta||_2^2=||Ax-y||^2_2+\lambda ||Px||_2^2$ 對該式微分得 $\begin{aligned}\frac{1}{2}df&=(Ax-y)^TAdx+\lambda x^TP^TPdx\\&=(Ax-y)^TAdx+\lambda x^TPdx\end{aligned}$ 於是 $\frac{1}{2}\frac{\partial f}{\partial x}=A^T(Ax-y)+\lambda P^Tx=A^T(Ax-y)+\lambda Px$ 再求一次微分可得Hessian矩陣，易驗證其爲對稱半正定的，於是帶有L2正則化的線性迴歸仍是凸優化問題。令 $\frac{\partial f}{\partial x}=0$ 得如下方程 $(A^TA+\lambda P)x=A^Ty$ 只要 $A^TA+\lambda P$ 可逆，則方程的解存在且唯一。爲此，我們證明如下結論：

定理： $A^TA+\lambda P$ 是對稱正定矩陣
證明：
對稱性易證。現證明正定性：由 $A=\begin{bmatrix}1_{m\times 1}&S\end{bmatrix}$ 及 $P=\begin{bmatrix}0&0_{1\times n}\\0_{n\times 1}&I_n\end{bmatrix}$ 知 $A^TA=\begin{bmatrix}m&1_{m\times 1}^TS\\S^T1_{m\times 1}&S^TS\end{bmatrix}$ $A^TA+\lambda P=\begin{bmatrix}m&1_{m\times 1}^TS\\S^T1_{m\times 1}&S^TS+\lambda I_n\end{bmatrix}$ 任意 $0\neq z\in R^{n+1}$ ， $z^TA^TAz=(Az)^T(Az)=||Az||_2^2\geqslant 0$ （即 $A^TA$ 是對稱半正定的），令 $z=(z_1,\text{\~{z}}^T)$ ，其中 $\text{\~{z}}\in R^n$ ，則 $\begin{aligned}z^TA^TAz&=z^T\begin{bmatrix}m&1_{m\times 1}^TS\\S^T1_{m\times 1}&S^TS\end{bmatrix}z\\&=mz_1^2+2(\text{\~{z}}^TS^T1_{m\times 1})z_1+\text{\~{z}}^TS^TS\text{\~{z}}\\&\geqslant 0\end{aligned}$ $\begin{aligned}z^T(A^TA+\lambda P)z&=z^T\begin{bmatrix}m&1_{m\times 1}^TS\\S^T1_{m\times 1}&S^TS+\lambda I_n\end{bmatrix}z\\&=mz_1^2+2(\text{\~{z}}^TS^T1_{m\times 1})z_1+\text{\~{z}}^TS^TS\text{\~{z}}+\lambda||\text{\~{z}}||_2^2\\&=z^TA^TAz+\lambda||\text{\~{z}}||_2^2\end{aligned}$ 當 $\text{\~{z}}=0$ 時，由 $z\neq 0$ 知 $z_1\neq 0$ ， $z^T(A^TA+\lambda P)z=mz_1^2\gt 0$ ；當 $\text{\~{z}}\neq 0$ 時， $\lambda||\text{\~{z}}||_2^2\gt 0$ ，故 $z^T(A^TA+\lambda P)z=z^TA^TAz+\lambda||\text{\~{z}}||_2^2\gt 0$ 。
綜上，只要 $z\neq 0$ 就有 $z^T(A^TA+\lambda P)z>0$ ，故 $A^TA+\lambda P$ 是對稱正定矩陣。

因爲 $A^TA+\lambda P$ 是對稱正定矩陣，故 $A^TA+\lambda P$ 一定可逆。這就證明了 $f(x)$ 的最優解存在且唯一，且爲 $x=(A^TA+\lambda P)^{-1}A^Ty$ 。

多層前饋網絡的反向傳播

多層前饋網絡又稱多層感知機或BP網絡，是迴歸問題/分類問題中常用的模型。

在推導反向傳播前，先看一下前向傳播是怎麼進行的。

單樣本：
設 $a^{[l]}\in R^{n_l}$ 是神經網絡中第 $l$ 層的激勵值，其中 $n_l$ 是第 $l$ 層的神經元個數， $g^{[l]}$ 是第 $l$ 層的激活函數， $W^{[l]}$ 和 $b^{[l]}$ 是第 $l$ 層的參數。設輸入層是第0層，即對於樣本 $x\in R^{n_0}$ ，有 $a^{[0]}=x$ ， $n_0$ 即該樣本的特徵數量。輸出層是第 $L$ 層，即對於樣本 $x$ ，網絡的預測值 $\hat y=a^{[L]}\in R^{n_L}$ 。則前向傳播的過程形式化如下：
依次對 $l=1,2,...,L$ 計算下式： $z^{[l]}=W^{[l]}a^{[l-1]}+b^{[l]}\\a^{[l]}=g^{[l]}(z^{[l]})$ 得到神經網絡的預測值 $\hat y=a^{[L]}$ 後，計算損失函數的值 $L(\hat y,y)$ ，其中 $y$ 是樣本 $x$ 的真實標籤。

多樣本：
設有 $m$ 個樣本 $x^{(1)},x^{(2)},...,x^{(m)}$ 按列構成矩陣 $X$ ，即 $X\in R^{n_0\times m}$ ，它們的標籤 $y^{(1)},y^{(2)},...,y^{(m)}$ 按列構成矩陣 $Y$ ， $Y\in R^{n_L\times m}$ （在分類問題中，樣本的標籤是one-hot向量，即目標概率分佈）。多樣本的情形實際上只是讓 $m$ 個樣本同時前向傳播，神經網絡的參數和單樣本時是相同的。設 $A^{[l]}=\begin{bmatrix}a^{[l](1)}&a^{[l](2)}&\cdots&a^{[l](m)}\end{bmatrix}$ ，其中 $a^{[l](i)}\in R^{n_l}$ 是第 $l$ 層第 $i$ 個樣本的激勵值。多樣本情形下的前向傳播可形式化如下：
依次對 $l=1,2,...,L$ 計算下式： $Z^{[l]}=W^{[l]}A^{[l-1]}+b^{[l]}1_{m\times 1}^T\\A^{[l]}=G^{[l]}(Z^{[l]})$ 函數 $G^{[l]}:R^{n_l\times m}\rightarrow R^{n_l\times m}$ 滿足 $G^{[l]}(Z^{[l]})=\begin{bmatrix}g^{[l]}(z^{[l](1)})&g^{[l]}(z^{[l](2)})&\cdots&g^{[l]}(z^{[l](m)})\end{bmatrix}$ ，其中 $g^{[l]}$ 是第 $l$ 層的激活函數（實際上多數激活函數是逐元素函數（softmax等除外），此時 $G^{[l]}$ 與 $g^{[l]}$ 可以統一定義爲一個以矩陣爲自變量的逐元素函數，不需要區分開）。神經網絡的預測值爲 $A^{[L]}=\hat Y=\begin{bmatrix}\hat y^{(1)}&\hat y^{(2)}&\cdots&\hat y^{(m)}\end{bmatrix}$ ，其中 $\hat y^{(i)}=g^{[L]}(z^{[L](i)})$ ，損失函數 $J(\hat Y,Y)$ 的值一般取每個樣本的損失函數值的平均值，即 $J(\hat Y,Y)=\frac{1}{m}\sum_iL(\hat y^{(i)},y^{(i)})$
常用的損失函數：
對於迴歸問題，常用均方誤差函數MSE： $L(\hat y,y)=||\hat y-y||_2^2$ 容易推導出對於多樣本的情形有 $J(\hat Y, Y)=\frac{1}{m}||\hat Y-Y||_F^2$ 對於分類問題，常用交叉熵代價函數CrossEntropyLoss：
如果輸出層的激勵函數採用sigmoid函數的話，則 $L(\hat y,y)=-\sum_{i=1}^{n_L}(y_i\ln\hat y_i+(1-y_i)\ln(1-\hat y_i))=-(y^T\ln\hat y+(1-y)^T\ln(1-\hat y))$ 容易推導出對於多樣本的情形有 $J(\hat Y, Y)=-\frac{1}{m}tr(Y^T\ln\hat Y+(1-Y)^T\ln(1-\hat Y))$ 如果輸出層的激勵函數採用softmax函數的話，則 $L(\hat y,y)=-\sum_{i=1}^{n_L}y_i\ln\hat y_i=-y^T\ln\hat y$ 對於多樣本的情形有 $J(\hat Y,Y)=-\frac{1}{m}tr(Y^T\ln\hat Y)$
一句話總結，前向傳播就是在計算以多個矩陣爲自變量的非線性實值函數 $f(X,Y,\Theta)=J(\hat Y, Y)$ ，其中 $\Theta$ 是神經網絡的參數組，包含神經網絡中的所有參數 $W^{[1]},b^{[1]},W^{[2]},b^{[2]},...,W^{[L]},b^{[L]}$ （很多資料中前向傳播的概念是僅僅計算到輸出層的值就可以了，但由於反向傳播是從代價函數開始的，因此這裏我們把使用輸出層的值計算代價函數也視爲前向傳播的一部分）。由於計算過程是從輸入層到輸出層逐層傳遞的，因此稱爲“前向傳播”。

由凸優化的相關理論知，最小化代價函數需要找到函數的一個下降方向，而負梯度方向是一個自然存在的下降方向，因此需要一個算法求出代價函數對網絡的各個參數矩陣的梯度矩陣。反向傳播算法（BP）以複合函數的微分法則（或複合函數的鏈導法則）爲理論基礎，從輸出層（準確說是從代價函數）開始到輸入層，逐層求解代價函數對各層參數的梯度矩陣，從而得到代價函數的一個下降方向。

下面以分類問題爲例推導BP算法，輸出層激勵函數採用Softmax，代價函數採用交叉熵代價函數。由於單樣本的前向、反向傳播過程可以視爲多樣本情形的特例（即 $m=1$ ），因此下面只推導多樣本情形：

一些前提結論（這些結論將在推導過程中直接使用）：

$dg(x)\oslash g(x)=dx-1_{n\times 1}g(x)^Tdx,x\in R^n$ ，其中 $g$ 是softmax函數
證：
由於 $dg(x)\oslash g(x)=d\ln g(x)$ ，因此先計算 $\ln g(x)$ 。 $\begin{aligned}\ln g(x)&=\ln \frac{e^x}{1^Te^x}\\&=\ln(e^x\oslash(1^Te^x1_{n\times 1}))\\&=\ln e^x-\ln(1^Te^x1_{n\times 1})\\&=x-\ln(1^Te^x1_{n\times 1})\end{aligned}$ $\begin{aligned}\begin{aligned}d\ln g(x)&=dx-d\ln(1^Te^x1_{n\times 1})\\&=dx-(1^T(de^x)1_{n\times 1})\oslash(1^Te^x1_{n\times 1})\\&=dx-\frac{1^T(e^x\odot dx)1_{n\times 1}}{1^Te^x}\\&=dx-\frac{(e^x)^Tdx1_{n\times 1}}{1^Te^x}\\&=dx-1_{n\times 1}g(x)^Tdx\end{aligned}\end{aligned}$
設 $\begin{bmatrix}a_1&a_2&\cdots&a_n\end{bmatrix}=A\in R^{m\times n},\begin{bmatrix}b_1&b_2&\cdots&b_n\end{bmatrix}=B\in R^{m\times n}$ ，則 $tr(\begin{bmatrix}a_1^Tb_11_{n\times 1}&a_2^Tb_21_{n\times 1}&\cdots&a_n^Tb_n1_{n\times 1}\end{bmatrix})=tr(A^TB)$
（它們的值都是 $\sum_{ij}a_{ij}b_{ij}$ ）
在分類問題中有 $Y^T1_{n_L\times 1}=1_{m\times 1}$ ，其中 $Y\in R^{n_L\times m}$ 是m個樣本的標籤（one-hot形式）按列排成的矩陣， $n_L$ 是網絡的輸出層的神經元數目，即類別數
（這是因爲概率分佈的總和是1，也可以從one-hot向量的格式看出來，one-hot向量只有一個分量是1，其他分量都是0）
前面提到過的一些微分公式

推導過程：
從代價函數開始到輸出層（輸出層激勵函數 $g^{[L]}$ 是softmax函數）：
$\begin{aligned}dJ&=-\frac{1}{m}tr(Y^Td\ln\hat Y)\\&=-\frac{1}{m}tr(Y^T(d\hat Y\oslash \hat Y))\end{aligned}$ $\begin{aligned}d\hat Y\oslash \hat Y&=dG^{[L]}(Z^{[L]})\oslash G^{[L]}(Z^{[L]})\\&=\begin{bmatrix}dg^{[L]}(z^{[L](1)})&\cdots&dg^{[L]}(z^{[L](m)})\end{bmatrix}\oslash\begin{bmatrix}g^{[L]}(z^{[L](1)})&\cdots&g^{[L]}(z^{[L](m)})\end{bmatrix}\\&=\begin{bmatrix}dg^{[L]}(z^{[L](1)})\oslash g^{[L]}(z^{[L](1)})&\cdots&dg^{[L]}(z^{[L](m)})\oslash g^{[L]}(z^{[L](m)})\end{bmatrix}\\&=\begin{bmatrix}dz^{[L](1)}-1_{n_L\times 1}g^{[L]}(z^{[L](1)})^Tdz^{[L](1)}&\cdots&dz^{[L](m)}-1_{n_L\times 1}g^{[L]}(z^{[L](m)})^Tdz^{[L](m)}\end{bmatrix}\\&=dZ^{[L]}-\begin{bmatrix}1_{n_L\times 1}(\hat y^{(1)})^Tdz^{[L](1)}&\cdots&1_{n_L\times 1}(\hat y^{(m)})^Tdz^{[L](m)}\end{bmatrix}\end{aligned}$ $\begin{aligned}-mdJ&=tr(Y^T(d\hat Y\oslash \hat Y))\\&=tr(Y^T(dZ^{[L]}-\begin{bmatrix}1_{n_L\times 1}(\hat y^{(1)})^Tdz^{[L](1)}&\cdots&1_{n_L\times 1}(\hat y^{(m)})^Tdz^{[L](m)}\end{bmatrix}))\\&=tr(Y^TdZ^{[L]})-tr(\begin{bmatrix}Y^T1_{n_L\times 1}(\hat y^{(1)})^Tdz^{[L](1)}&\cdots&Y^T1_{n_L\times 1}(\hat y^{(m)})^Tdz^{[L](m)}\end{bmatrix})\\&=tr(Y^TdZ^{[L]})-tr(\begin{bmatrix}1_{m\times 1}(\hat y^{(1)})^Tdz^{[L](1)}&\cdots&1_{m\times 1}(\hat y^{(m)})^Tdz^{[L](m)}\end{bmatrix})\\&=tr(Y^TdZ^{[L]})-tr(\hat Y^TdZ^{[L]})\\&=tr((Y-\hat Y)^TdZ^{[L]})\end{aligned}$ 由微分和梯度矩陣的關係得 $\frac{\partial J}{\partial Z^{[L]}}=\frac{1}{m}(\hat Y-Y)$ ，可見梯度矩陣的形式十分簡單。這就是機器學習框架（如Tensorflow和Pytorch）中CrossEntropyLoss的實現要把softmax集成到loss函數中的原因，因爲這樣的話在反向傳播時能節省大量不必要的運算，做個矩陣減法就是導數了（還有一點就是前向傳播時log和softmax結合也可以簡化運算）。

【注】當輸出層的激勵函數採用sigmoid函數，代價函數採用交叉熵代價函數時，反向傳播有類似的結果，感興趣的讀者可以自己試一下。

輸出層還沒算完： $dZ^{[L]}=(dW^{[L]})A^{[L-1]}+W^{[L]}dA^{[L-1]}+(db^{[L]})1_{m\times 1}^T$ $\begin{aligned}dJ&=tr((\frac{\partial J}{\partial Z^{[L]}})^TdZ^{[L]})\\&=tr((\frac{\partial J}{\partial Z^{[L]}})^T(dW^{[L]})A^{[L-1]})+tr((\frac{\partial J}{\partial Z^{[L]}})^TW^{[L]}dA^{[L-1]})+tr((\frac{\partial J}{\partial Z^{[L]}})^T(db^{[L]})1_{m\times 1}^T)\\&=tr((\frac{\partial J}{\partial Z^{[L]}}(A^{[L-1]})^T)^TdW^{[L]})+tr(((W^{[L]})^T\frac{\partial J}{\partial Z^{[L]}})^TdA^{[L-1]})+tr((\frac{\partial J}{\partial Z^{[L]}}1_{m\times 1})^Tdb^{[L]})\end{aligned}$ 故由微分與梯度矩陣的關係得 $\frac{\partial J}{\partial W^{[L]}}=\frac{\partial J}{\partial Z^{[L]}}(A^{[L-1]})^T$ ， $\frac{\partial J}{\partial b^{[L]}}=\frac{\partial J}{\partial Z^{[L]}}1_{m\times 1}$ ， $\frac{\partial J}{\partial A^{[L-1]}}=(W^{[L]})^T\frac{\partial J}{\partial Z^{[L]}}$ 。這就得到了代價函數對輸出層參數 $W^{[L]},b^{[L]}$ 的梯度。通過將 $\frac{\partial J}{\partial A^{[L-1]}}$ 保存下來，求導運算可以繼續傳播下去。爲了後面表示方便，我們把上面的微分式中的每一項用單個符號代替，即簡寫爲 $dJ=dJ_{W^{[L]}}+dJ_{A^{[L-1]}}+dJ_{b^{[L]}}$ ，注意後面計算時只會把 $dJ_{A^{[L-1]}}$ 展開， $dJ_{W^{[L]}}$ 和 $dJ_{b^{[L]}}$ 是不會再變的。同理，對於任意變量 $V$ ， $dJ_{V}$ 表示 $J$ 對 $V$ 的微分項。

從第 $l$ 層到第 $l-1$ 層：
假設第 $l$ 層的梯度已得出，即已知 $\frac{\partial J}{\partial W^{[l]}}$ ， $\frac{\partial J}{\partial b^{[l]}}$ ， $\frac{\partial J}{\partial A^{[l-1]}}$ ，則通過 $\frac{\partial J}{\partial A^{[l-1]}}$ 可以計算第 $l-1$ 層的梯度： $\begin{aligned}dA^{[l-1]}&=dG^{[l-1]}(Z^{[l-1]})\\&=\begin{bmatrix}dg^{[l-1]}(z^{[l-1](1)})&\cdots&dg^{[l-1]}(z^{[l-1](m)})\end{bmatrix}\\&=\begin{bmatrix}\frac{\partial g^{[l-1]}}{\partial z^{[l-1](1)^T}}dz^{[l-1](1)}&\cdots&\frac{\partial g^{[l-1]}}{\partial z^{[l-1](m)^T}}dz^{[l-1](m)}\end{bmatrix}\end{aligned}$ $\begin{aligned}dJ_{A^{[l-1]}}&=tr((\frac{\partial J}{\partial A^{[l-1]}})^TdA^{[l-1]})\\&=tr(\begin{bmatrix}(\frac{\partial J}{\partial A^{[l-1]}})^T\frac{\partial g^{[l-1]}}{\partial z^{[l-1](1)^T}}dz^{[l-1](1)}&\cdots&(\frac{\partial J}{\partial A^{[l-1]}})^T\frac{\partial g^{[l-1]}}{\partial z^{[l-1](m)^T}}dz^{[l-1](m)}\end{bmatrix})\\&=tr((B^{[l-1]})^TdZ^{[l-1]})\end{aligned}$ 其中 $B^{[l-1]}=\begin{bmatrix}(\frac{\partial g^{[l-1]^T}}{\partial z^{[l-1](1)}}\frac{\partial J}{\partial A^{[l-1]}})_1&\cdots&(\frac{\partial g^{[l-1]^T}}{\partial z^{[l-1](m)}}\frac{\partial J}{\partial A^{[l-1]}})_m\end{bmatrix}$ 故由微分與梯度矩陣的關係得 $\frac{\partial J}{\partial Z^{[l-1]}}=B^{[l-1]}$ 。
實際上，大多激活函數都是逐元素函數（例如sigmoid,tanh,relu等等），此時 $G^{[l-1]}$ 也是一個逐元素函數，故 $dA^{[l-1]}=dG^{[l-1]}(Z^{[l-1]})=G^{[l-1]'}(Z^{[l-1]})\odot dZ^{[l-1]}$ $\begin{aligned}dJ_{A^{[l-1]}}&=tr((\frac{\partial J}{\partial A^{[l-1]}})^TdA^{[l-1]})\\&=tr((\frac{\partial J}{\partial A^{[l-1]}})^T(G^{[l-1]'}(Z^{[l-1]})\odot dZ^{[l-1]}))\\&=tr((\frac{\partial J}{\partial A^{[l-1]}}\odot G^{[l-1]'}(Z^{[l-1]}))^TdZ^{[l-1]}))\end{aligned}$ 故由微分與梯度矩陣的關係得 $\frac{\partial J}{\partial Z^{[l-1]}}=\frac{\partial J}{\partial A^{[l-1]}}\odot G^{[l-1]'}(Z^{[l-1]})$ 。得到了 $\frac{\partial J}{\partial Z^{[l-1]}}$ 後，計算代價函數對第 $l-1$ 層的參數 $W^{[l-1]},b^{[l-1]}$ 的梯度的方法與輸出層是相同的，故不再贅述。

矩陣論（八）：矩陣微分與矩陣求導

矩陣微分與矩陣求導

佈局約定

向量對向量求導

矩陣對標量求導

標量對矩陣求導

應用

線性迴歸問題的最小二乘解

L2正則化情形

多層前饋網絡的反向傳播

循環神經網絡的反向傳播（待補充）

矩陣論（八）：矩陣微分與矩陣求導

矩陣論（零）：線性代數基礎知識整理（4）——線性空間與線性變換

矩陣論（二）：廣義逆矩陣（下）

矩陣論（五）：矩陣的正定性

矩陣論（四）：矩陣分解—從Schur分解、特徵值分解EVD到奇異值分解SVD（下）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結