深度學習中矩陣求導公式整理

1.兩種佈局約定方式

佈局(Layout):在矩陣求導中有兩種佈局,分別爲分母佈局(denominator layout)和分子佈局(numerator layout)。這兩種不同佈局的求導規則是不一樣的。

向量y=[y1y2yn]\mathbf{y}=\left[\begin{matrix} y_1\\ y_2\\ \vdots \\y_n\end{matrix} \right],關於標量xx的求導,
分子佈局下,爲:
yx=[y1xy2xynx]\frac{\partial \mathbf{y}}{\partial x}=\left[\begin{matrix} \frac{\partial y_1}{\partial x}\\\frac{\partial y_2}{\partial x}\\ \vdots \\\frac{\partial y_n}{\partial x}\end{matrix} \right]
而在分母佈局下,爲:
yx=[y1xy2xynx]\frac{\partial \mathbf{y}}{\partial x}=\left[\begin{matrix}\frac{\partial y_1}{\partial x}&\frac{\partial y_2}{\partial x} & \cdots &\frac{\partial y_n}{\partial x}\end{matrix} \right]
通過觀察和推導我們可以知道,分子佈局和分母佈局之間剛好差一個轉置,即在分子佈局下與原來y\mathbf{y}相同,而在分母佈局下差一個轉置。

2.矩陣求導的類型

類型 標量 向量 矩陣
標量 yx\frac{\partial y}{\partial x} yx\frac{\partial \mathbf{y}}{\partial x} Yx\frac{\partial \mathbf{Y}}{\partial x}
向量 yx\frac{\partial y}{\partial \mathbf{x}} yx\frac{\partial \mathbf{y}}{\partial \mathbf{x}}
矩陣 yX\frac{\partial y}{\partial \mathbf{X}}

3.標量對標量求導

這種情況就是平常的代數求導,直接爲yx\frac{\partial y}{\partial x}

4.向量對標量求導

向量y=[y1y2yn]\mathbf{y}=\left[\begin{matrix} y_1\\ y_2\\ \vdots \\y_n\end{matrix} \right],關於標量xx的求導(以分子佈局約定)就是y\mathbf{y}的每一個元素分別對xx求導,可以表示爲:
yx=[y1xy2xynx]\frac{\partial \mathbf{y}}{\partial x}=\left[\begin{matrix} \frac{\partial y_1}{\partial x}\\\frac{\partial y_2}{\partial x}\\ \vdots \\\frac{\partial y_n}{\partial x} \end{matrix} \right]
此時爲正切向量,yx\frac{\partial \mathbf{y}}{\partial x}y\mathbf{y}的正切向量,有映射y\mathbf{y}Rn    Rn\R^n\implies\R^n??

5.矩陣對標量求導

矩陣對標量的求導類似於向量關於標量的求導,也就是矩陣的每個元素分別對標量xx求導,矩陣Y=[y11y12y1ny21y22y2nyn1yn2ynn]\mathbf{Y} =\left[\begin{matrix} y_{11}&y_{12}& \cdots&y_{1n} \\ y_{21}&y_{22}& \cdots&y_{2n} \\ \vdots&\vdots&\ddots&\vdots\\ y_{n1}&y_{n2}& \cdots&y_{nn} \end{matrix} \right]對標量xx的導數(以分子佈局約定)爲:
Yx=[y11xy12xy1nxy21xy22xy2nxyn1xyn2xynnx]\frac{\partial \mathbf{Y} }{\partial x}=\left[\begin{matrix} \frac{\partial y_{11}}{\partial x}&\frac{\partial y_{12}}{\partial x}&\cdots&\frac{\partial y_{1n}}{\partial x}\\ \frac{\partial y_{21}}{\partial x}&\frac{\partial y_{22}}{\partial x}&\cdots&\frac{\partial y_{2n}}{\partial x} \\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial y_{n1}}{\partial x}&\frac{\partial y_{n2}}{\partial x}& \cdots&\frac{\partial y_{nn}}{\partial x} \end{matrix} \right]

6.標量對向量求導

標量yy關於向量x=[x1x2xn]\mathbf{x}=\left[\begin{matrix} x_1\\x_2\\\vdots\\x_n \end{matrix} \right]的求導可以表示爲:
yx=[yx1yx2yxn]\frac{\partial y}{\partial \mathbf{x}}=\left[\begin{matrix} \frac{\partial y}{\partial x_1}&\frac{\partial y}{\partial x_2}&\cdots&\frac{\partial y}{\partial x_n} \end{matrix} \right]
此時的向量叫做梯度向量。yx\frac{\partial y}{\partial \mathbf{x}}爲標量yy在空間 Rn\R^n的梯度,該空間以xx爲基。

7.向量對向量求導

向量函數(即函數組成的向量)y=[y1y2yn]\mathbf{y}=\left[\begin{matrix} y_1\\y_2\\\vdots\\y_n \end{matrix} \right]關於向量x=[x1x2xn]\mathbf{x}=\left[\begin{matrix} x_1\\x_2\\\vdots\\x_n \end{matrix} \right]的導數記作:
yx=[y1x1y1x2y1xny2x1y2x2y2xnynx1ynx2ynxn]\frac{\partial \mathbf{y} }{\partial \mathbf{x}}=\left[\begin{matrix} \frac{\partial y_1}{\partial x_1}&\frac{\partial y_1}{\partial x_2}&\cdots&\frac{\partial y_1}{\partial x_n}\\ \frac{\partial y_2}{\partial x_1}&\frac{\partial y_2}{\partial x_2}&\cdots&\frac{\partial y_2}{\partial x_n}\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial y_n}{\partial x_1}&\frac{\partial y_n}{\partial x_2}&\cdots&\frac{\partial y_n}{\partial x_n} \end{matrix} \right]
此時獲得的矩陣yx\frac{\partial \mathbf{y} }{\partial \mathbf{x}}叫做Jacobian矩陣。

8.標量對矩陣求導

自變量爲矩陣X 的標量函數 y 關於矩陣X的導數爲:(分子佈局約定)
yX=[yx11yx21yxp1yx12yx22yxp2yx1qyx2qyxpq]\frac{\partial y }{\partial \mathbf{X}}=\left[\begin{matrix} \frac{\partial y}{\partial x_{11}}&\frac{\partial y}{\partial x_{21}}&\cdots&\frac{\partial y}{\partial x_{p1}}\\ \frac{\partial y}{\partial x_{12}}&\frac{\partial y}{\partial x_{22}}&\cdots&\frac{\partial y}{\partial x_{p2}}\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial y}{\partial x_{1q}}&\frac{\partial y}{\partial x_{2q}}&\cdots&\frac{\partial y}{\partial x_{pq}}\\ \end{matrix} \right]
注意到這裏關於X的梯度的索引就是矩陣X索引的轉置。(矩陣的標量函數會涉及到矩陣的跡和行列式)。

參考文獻:

[1] Matrix calculus
[2] 矩陣求導(一)
[3] 數學-矩陣計算(4)兩種佈局

發佈了13 篇原創文章 · 獲贊 1 · 訪問量 631
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章