矩陣微分

標籤（空格分隔）：矩陣微分

矩陣微分
在學習機器學習算法時,發現對矩陣求導很不熟悉,去看了張賢達的矩陣分析,發現標量對矩陣求導的問題說的很清楚.關於如何求解 hessian矩陣,日後再來補上.
重要的事情說三遍
損失函數是標量函數!!!
損失函數是標量函數!!!
損失函數是標量函數!!!

主要介紹實值函數相對於實向量變量或者矩陣變量的偏導.這裏首先對變元和函數符號做統一的規定以便後面介紹.
$x x = [x_{1}, . . ., x_{m}]^{T} \in R^{m}$ 爲實向量變元
$X X = [x x_{1}, . . ., x x_{m}]^{T} \in R^{m \times n}$ 爲矩陣變元
$f (x x) \in R 为实值标量函数, 其变元 x x \in R^{m}, 记做 f : R^{m} \to R$
$f (X X) \in R 为实值标量函数, 其变元 X X \in R^{m \times n}, 记做 f : R^{m \times n} \to R$
$f f (x x) \in R^{p} 为 p 维实列向量函数, 其变元 x x \in R^{m}, 记做 f : R^{m} \to R^{p}$
$f f (X X) \in R^{p} 为 p 维实列向量函数, 其变元 X X \in R^{m \times n}, 记做 f : R^{m \times n} \to R^{p}$
$F F (x x) \in R^{p \times q} 为 p \times q 实矩阵函数, 其变元 x x \in R^{m}, 记做 f : R^{m} \to R^{p \times q}$
$F F (X X) \in R^{p \times q} 为 p \times q 实矩阵函数, 其变元 X X \in R^{m \times n}, 记做 f : R^{m \times n} \to R^{p \times q}$

Jacobian 矩陣

採用 $1 \times m$ 行向量作爲偏導算子,記爲

D_{x x} \overset{d e f}{=} [\frac{\partial}{\partial x_{1}}, . . ., \frac{\partial}{\partial x_{m}}]

實值標量函數 $f (x x) 在 x x 的偏导向量为 1 \times m 行向量, 定义如下$

D_{x x} f (x x) = \frac{\partial f (x x)}{\partial x x^{T}} = [\frac{\partial f (x x)}{\partial x_{1}}, . . ., \frac{\partial f (x x)}{\partial x_{m}}]

當實值標量函數 $f (X X) 的变元是 p \times q$ 維矩陣的時候,他有兩種定義:Jacobian矩陣和行向量偏導.他的Jacobian矩陣定義爲如下

D_{X X} f (X X) = \frac{\partial f (X X)}{\partial X X^{T}}

而他的行向量偏導定義爲

D_{v e c X X} f (X X) = \frac{\partial f (X X)}{\partial v e c (X X)^{T}} = [\frac{\partial f (x x)}{\partial x_{1}}, . . . \frac{\partial f (x x)}{\partial x_{m 1}}, . . ., \frac{\partial f (x x)}{\partial x_{1 n}}, . . ., \frac{\partial f (x x)}{\partial x_{m n}}]

這裏需要注意的是,實值標量函數

f (X X)

的Jacobian矩陣的轉置

D_{X X}^{T} f (X X)

的列向量化後即爲他的行向量偏導

D_{v e c X X} f (X X)

,這是後面介紹Jacobian矩陣相關知識的基礎

当 F F (X X) 为 p \times q 实 矩 阵 函 数 时, 定 义 他 的 J a c o b i a n 矩 阵 如 下

D_{X X} F F (X X) \overset{d e f}{=} \frac{\partial v e c (F F (X X))}{\partial (v e c X X)^{T}}

梯度矩陣

採用列向量形式的偏導算子稱爲列向量偏導算子,也稱爲梯度算子
採用 $m \times 1$ 向量作爲偏導算子,記爲

\nabla_{x x} \overset{d e f}{=} [\frac{\partial}{\partial x_{1}}, . . ., \frac{\partial}{\partial x_{m}}]^{T}

實值標量函數 $f (x x) 在 x x 的梯度向量为 m \times 1 列向量, 定义如下$

\nabla_{x x} f (x x) = [\frac{\partial f (x x)}{\partial x_{1}}, . . ., \frac{\partial f (x x)}{\partial x_{m}}]^{T}

實值標量函數 $f (X X) 的变元 X X 列向量化后, 可以定义其矩阵变元 X X 的梯度向量为$

\nabla_{v e c X X} f (X X) = \frac{\partial f (X X)}{\partial v e c (X X)} = [\frac{\partial f (x x)}{\partial x_{1}}, . . . \frac{\partial f (x x)}{\partial x_{m 1}}, . . ., \frac{\partial f (x x)}{\partial x_{1 n}}, . . ., \frac{\partial f (x x)}{\partial x_{m n}}]^{T}

定義

f (X X) 的 其 关 于 矩 阵 变 元 X X 的 梯 度 矩 阵 为

\nabla_{X X} f (X X) = \frac{\partial f (X X)}{\partial X X}

比較

f (X X)

的梯度矩陣和Jacobian矩陣,可以發現梯度矩陣即爲Jacobian矩陣的轉置
當實值標量函數數

f (X X) 的 变 元 是 p \times q 维 矩 阵 的 时 候, 他 的 梯 度 向 量 定 义 为 如 下

\nabla_{X X} F F (X X) \overset{d e f}{=} \frac{\partial v e c (F F (X X))}{\partial (v e c X X)^{T}}

標量函數 $f (x x)$ 與Jacobian矩陣

以向量爲變元的標量函數 $f (x x)$ 的全微分形式可以寫爲

d f (x x) = \frac{\partial f (x x)}{\partial x_{1}} d x_{1} + . . . + \frac{\partial f (x x)}{\partial x_{m}} d x_{m} = \frac{\partial f (x x)}{\partial x x^{T}} d x x

记 A A = \frac{\partial f (x x)}{\partial x x^{T}}

,則有如下等價關係

d f (x x) = t r (A d x x) ⟺ D_{x x} f (x x) = \frac{\partial f (x x)}{\partial x x^{T}} = A

也就是標量函數

f (x x)

的Jacobian矩陣和微分矩陣存在着等價關係

標量函數 $f (X X)$ 與Jacobian矩陣

標量函數 $f (X X)$ 和上面類似,其全微分可以寫成如下形式

\begin{aligned} d f (X X) & = \frac{\partial f (X X)}{\partial x x_{1}^{T}} d x x_{1} + . . . + \frac{\partial f (X X)}{\partial x x_{n}^{T}} d x x_{n} \\ = \frac{\partial f (X X)}{\partial v e c^{T} ((X)} d (v e c X X) \\ = D_{v e c X X} f (X X) d (v e c X X) \end{aligned}

這裏再利用行向量偏導和Jacobian矩陣的關係

D_{v e c X X} f (X X) = (v e c (D_{X X}^{T} f (X X)))^{T} ， 并 令 A = D_{X X}^{T} f (X X)

可以得到

\begin{aligned} d f (X X) & = (v e c (A^{T}))^{T} d (v e c X X) \end{aligned}

由向量化算子vec與跡函數的關係式

t r (B^{T} C) = (v e c (B))^{T} v e c (C), 令 B = A^{T}, C = d X X

,則上式可以重寫爲

d f (X X) = t r (A A d X X)

綜合以上,可以得到如下結論:
Jacobian矩陣可以通過以下式子等價確定

d f (x x) = t r (A d x x) ⟺ D_{x x} f (x x) = A d f (X X) = t r (A d X X) ⟺ D_{X X} f (X X) = A

矩陣微分 $d f (X X)$ 可以通過簡單的變化轉化爲矩陣微分的標準形式 $d f (X X) = t r (A d X X)$ .再由Jacobian和梯度矩陣的關係,進一步可以得到梯度矩陣.因而對求解梯度矩陣可以由矩陣微分的標準形式 $d f (X X) = t r (A d X X)$ 得到.
如下:
對於 $t r (X X^{T} X X)$ 我們可以得到

\begin{aligned} d t r (X X^{T} X X) & = t r (d (X X^{T} X X)) \\ = t r (d (X X)^{T} X X + X X^{T} d X X) \\ = t r (d (X X)^{T} X X) + t r (X X^{T} d X X) \\ = t r (X X^{T} d (X X)) + t r (X X^{T} d X X) \\ = t r (2 X X^{T} d (X X)) \end{aligned}

由以上結論,可以得到

X X^{T} X X

關於

X X

的梯度矩陣爲

\frac{\partial t r (X X^{T} X X)}{\partial X X} = (2 X X^{T})^{T} = 2 X X

求解梯度矩陣是進行一階優化算法的基礎部分.

參考文獻&學習資料
矩陣分析與應用 -張賢達
矩陣求導術-知乎
 The Matrix Cookbook.

矩陣微分

矩陣微分

Jacobian 矩陣

梯度矩陣

標量函數 $f (x x)$ 與Jacobian矩陣

標量函數 $f (X X)$ 與Jacobian矩陣

DAPPER 事務 TRANSACTION

Java中線程的創建方式

一鍵自動化博客發佈工具,chrome和firfox詳細配置

acm常用模板

小備註

Ubuntu aria2c 下載

Java 模擬58登錄

SRTP 同態加密筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

矩陣微分

矩陣微分

Jacobian 矩陣

梯度矩陣

標量函數f(xx)f(xx) 與Jacobian矩陣

標量函數f(XX)f(XX) 與Jacobian矩陣

標量函數 $f (x x)$ 與Jacobian矩陣

標量函數 $f (X X)$ 與Jacobian矩陣