机器学习数学基础(三):线性代数 矩阵

(一)矩阵

引例SVD

什么是SVD?

奇异值分解(Singular Value Decomposition)是一种重要的矩阵分解方法,可以看作对称方阵在任意矩阵上的推广。
在这里插入图片描述
与特征值、特征向量概念相对应:

  • \sum_{} 对角线上的元素称为矩阵A的奇异值
  • U 的第i列称为A的关于σi\sigma_i的左奇异向量
  • V 的第i列称为A的关于σi\sigma_i的右奇异向量

举例

  • 已知4×54 \times 5阶实矩阵A,求A的SVD分解:
    在这里插入图片描述

  • 一个图像也可以看作一个矩阵,进行分解
    在这里插入图片描述

基础概念

定义

线性代数定义:方阵行列式

  • 1阶方阵行列式是该元素本身
  • n阶方阵行列式等于它任一行/列各元素与其对应的代数余子式乘积之和

代数余子式

  • 余子式
    在一个n阶行列式A中,把(i,j)元素aija_ij所在的第i行和第j列划去后,留下的n-1阶方阵的行列式叫做元素aija_ij的余子式,记作MijM_ij
  • 代数余子式
    代数余子式AijA_ij = (1)i+j(-1)^{i+j}MijM_ij
    在这里插入图片描述

伴随矩阵

对于n×nn \times n方阵的任意元素aija_ij都有各自的代数余子式AijA_ij = (1)i+j(-1)^{i+j}MijM_ij
构造n×nn \times n的方阵AA^*
在这里插入图片描述
AA^*是A的伴随矩阵
AijA_ij位于AA^*的第j行第i列

方阵的逆

AA=AIA\cdot A^*=|A|\cdot I
推导过程如下:
在这里插入图片描述

范德蒙行列式

证明范德蒙行列式,使用数学归纳法
在这里插入图片描述

矩阵的乘法/状态转移矩阵

矩阵乘法

A为m×sm \times s阶矩阵,B为s×ns \times n阶矩阵,那么,C=A×BA \times B阶矩阵是m×nm \times n阶矩阵,其中
在这里插入图片描述

矩阵和向量乘法

A为m×nm \times n阶矩阵,B为n×1n \times 1阶矩阵,则AxAxm×1m \times 1列向量,记为y=A\overrightarrow{y} = A\cdotx\overrightarrow{x}
由于n维列向量和n维空间的点一一对应,上式也是从n维空间的点到m维空间点的线性变换(旋转、平移)。
特殊的,若m=n,Ax完成的是n维空间内的线性变换。

应用:机械手臂移动

状态转移矩阵

  • 状态转义概率
    某随机过程,状态有n个,用1—n表示。记在当前时刻t时位于i状态,再t+1时刻位于j状态的概率为P(i,j)= P(j | i),即状态转移概率只依赖于前一个状态。
    在这里插入图片描述

  • 概率转移矩阵
    第n+1代中处于第j个阶层的概率为:
    在这里插入图片描述
    此式中矩阵P为(条件)概率转移矩阵。第i行元素表示,在上一个状态为i时的分布概率,即:每一行元素和为1。

  • 平稳分布
    转移概率矩阵性质是初始概率不同,经过若干次迭代,最终稳定收敛在某个分布上,称为平稳分布,这个性质不是初始分布的性质。
    以下两种写法等价:
    在这里插入图片描述
    如果概率分布πP=π\pi P = \pi,说明:
    (1)该多项分布是状态转移矩阵P的平稳分布;
    (2)线性方程xP = x的非负解为π\pi,而PnP^n唯一,因此π\pi是线性方程xP = x的唯一非负解

矩阵和向量组

矩阵的秩

设在矩阵A中有一个不等于零的r阶子式D,且所有r+1阶子式(若存在)为0,那么D为矩阵A的最高阶非零子式,r称为矩阵A的秩,记为R(A)=rR(A)=r

  • n×nn \times n的可逆矩阵,秩为n
  • 可逆矩阵又称满秩矩阵
  • 矩阵的秩等于它行(列)向量组的秩

秩和线性方程组解的关系

在这里插入图片描述
对于n元线性方程组Ax=bAx = b

  • 无解的充要条件是R(A)<R(A,b)R(A) < R(A,b)
  • 有唯一解的充要条件是R(A)=R(A,b)=nR(A) = R(A,b) = n
  • 有无限多解的充要条件是R(A)=R(A,b)<nR(A) = R(A,b) < n
    推论
  • Ax=0Ax = 0 有非零解的充要条件是R(A)<nR(A) < n
  • Ax=bAx = b 有解的充要条件是R(A)=R(A,b)R(A) = R(A,b)

向量组等价

  • 什么是向量组等价
    向量b\overrightarrow{b}能由向量组A:a1\overrightarrow{a_1},a2\overrightarrow{a_2},…am\overrightarrow{a_m}线性表出的充要条件是矩阵A=(a1\overrightarrow{a_1},a2\overrightarrow{a_2},…am\overrightarrow{a_m})的秩等于矩阵B=(a1\overrightarrow{a_1},a2\overrightarrow{a_2},…am\overrightarrow{a_m},b\overrightarrow{b})的秩
    设有两个向量组A:a1\overrightarrow{a_1},a2\overrightarrow{a_2},…am\overrightarrow{a_m}和B:b1\overrightarrow{b_1},b2\overrightarrow{b_2},…bn\overrightarrow{b_n},若向量组A和向量组B能够相互表出,则称向量组A和向量组B等价
  • 系数矩阵
    将向量组A和B所构成的矩阵依次记作A = (a1\overrightarrow{a_1},a2\overrightarrow{a_2},…am\overrightarrow{a_m})和 B = (b1\overrightarrow{b_1},b2\overrightarrow{b_2},…bn\overrightarrow{b_n}),B组能由A组线性表示,即对每个向量bjb_j,存在k1j\overrightarrow{k_{1j}},k2j\overrightarrow{k_{2j}},…kmj\overrightarrow{k_{mj}},使得
    bj=k1ja1+k2ja2+...kmjam=(a1a2am)(k1jk2jkmj)b_j=k_{1j}a_1+k_{2j}a_2+...k_{mj}a_m = \begin{pmatrix} a_1 & a_2 & \cdots && a_m \\ \end{pmatrix}\begin{pmatrix}k_{1j} \\ k_{2j} \\ \vdots \\k_{mj} \\ \end{pmatrix}
    从而得到稀疏矩阵
    (b1b2bm)=(a1a2am)(k11k12k1nk21k22k2nkm1km2kmn)\begin{pmatrix} b_1 & b_2 & \cdots && b_m \\ \end{pmatrix} = \begin{pmatrix} a_1 & a_2 & \cdots && a_m \\ \end{pmatrix} \begin{pmatrix} k_{11} & k_{12} & \cdots & k_{1n} \\ k_{21} & k_{22} & \cdots & k_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ k_{m1} & k_{m2} & \cdots & k_{mn} \\ \end{pmatrix}
  • 重认识 C=ABC=AB
    C=ABC=AB,则矩阵C的列向量能由A的列向量线性表示,B即为这一表示的系数矩阵;矩阵C的行向量能由B的行向量线性表示,A即为这一表示的系数矩阵。
    向量组Bb1B:\overrightarrow{b_1},b2\overrightarrow{b_2},…bn\overrightarrow{b_n}能由向量组Aa1A:\overrightarrow{a_1},a2\overrightarrow{a_2},…am\overrightarrow{a_m}线性表示的充要条件是矩阵A=a1A=(\overrightarrow{a_1},a2\overrightarrow{a_2},…am\overrightarrow{a_m})的秩等于矩阵AB=a1(A,B)=(\overrightarrow{a_1},a2\overrightarrow{a_2},…am,b1\overrightarrow{a_m},\overrightarrow{b_1},b2\overrightarrow{b_2},…bn\overrightarrow{b_n})的秩,即为R(A)=R(A,B)R(A) = R(A,B)
  • 正交阵
    若n阶矩阵满足ATA=1\mathbf{A}^\mathrm{T}A = 1,则A为正交矩阵,简称正交阵。
    充要条件:A的行(列)向量都是单位向量,且两两正交。
    正交变换:A是正交阵,x为向量,则AxA \cdot x称为正交变换。正交变换不改变向量长度

(二)特征值和特征向量

特征向量

  1. 定义:

A是n阶矩阵,若λ\lambdann维非0列向量x满足Ax=λxAx=\lambda x,那么λ\lambda称为A的特征值,xx称为A的对于特征值λ\lambda的特征向量。

  1. 求解:

由定义得AλIx=0(A-\lambda I) x=0,令关于λ\lambda的多项式AλI|A-\lambda I|00,方程AλI=0|A-\lambda I|=0的根为A的特征值,将λ0\lambda_0代入方程组AλIx=0(A-\lambda I) x=0,求得到的非零解,即λ0\lambda_0对应的特征向量。

  1. 性质:

nn阶矩阵A=(aij)A=(a_{ij})的特征值为λ1,λ2,...λn\lambda_1,\lambda_2,...\lambda_n
(1)λ1+λ2+...+λn=a11+a22+...+ann\lambda_1+\lambda_2+...+\lambda_n=a_{11}+a_{22}+...+a_{nn}
(2)λ1λ2...λn=A\lambda_1\lambda_2...\lambda_n=|A|

  1. trace/矩阵的迹:

矩阵A主行列式的元素和

  1. 不同特征值对应的特征向量:

λ1,λ2,...λn\lambda_1,\lambda_2,...\lambda_n是方阵A的m个特征值,p1,p2,...pmp_1,p_2,...p_m是依次与之对应的特征向量,若λ1,λ2,...λn\lambda_1,\lambda_2,...\lambda_n各不相等,则p1,p2,...pmp_1,p_2,...p_m线性无关。
不同特征值对应的特征向量,线性无关

  1. 引理:

实对称矩阵的特征值是实数。
设复数λ\lambda为对称阵AA的特征值,复向量x为对应的特征向量,即Ax=λx(x0)Ax=\lambda x(x\neq 0)
λ\overline{\lambda}表示λ\lambda的共轭复数,x\overline{x}表示xx的共轭复向量,而AA是实矩阵,则有A=A\overline{A}=A,证明如下:
Ax=Ax=Ax=λx=λxA\overline{x}=\overline{A}\overline{x}=\overline{Ax}=\overline{\lambda x}=\overline{\lambda}\overline{x}

因为xT(Ax)=xTλx=λxTx\overline{x}^T(Ax)= \overline{x}^T\lambda x= \lambda \overline{x}^Tx

xT(Ax)=(xTA)x=(Ax)Tx=(λx)Tx=λxTx\overline{x}^T(Ax)= (\overline{x}^TA)x= (A\overline{x})^Tx= (\lambda \overline{x})^Tx= \overline{\lambda }\overline{x}^Tx
从而
λxTx=λxTx    (λλ)xTx=0\lambda \overline{x}^Tx= \overline{\lambda }\overline{x}^Tx \implies (\lambda - \overline{\lambda}) \overline{x}^Tx=0

在这里插入图片描述
所以
λλ=0    λ=λ\lambda- \overline{\lambda}=0\implies \lambda= \overline{\lambda}

对称阵、正交阵、正定阵

对称阵

  • 实对称阵的特征向量可以取实向量
  • 实对称阵不同特征值的特征向量正交
    证明:令实对称矩阵为A,其两个不同的特征值λ1λ2\lambda_1\lambda_2对应的特征向量分别是μ1μ2\mu_1\mu_2
    {Aμ1=λ1μ1Aμ2=λ2μ2    μ1TAμ2=μ1Tλμ2 \begin{cases} A\mu_1=\lambda_1\mu_1 \\ A\mu_2=\lambda_2\mu_2\implies \mu_1^TA\mu_2=\mu_1^T\lambda\mu_2 \end{cases}

(ATμ1)Tμ2=λ2μ1Tμ2    (Aμ1)Tμ2=λ2μ1Tμ2(A^T\mu_1)^T\mu_2=\lambda_2\mu_1^T\mu_2 \implies (A\mu_1)^T\mu_2=\lambda_2\mu_1^T\mu_2

    (λ1μ1)Tμ2=λ2μ1Tμ2\implies(\lambda_1\mu_1)^T\mu_2=\lambda_2\mu_1^T\mu_2

    λ1μ1Tμ2=λ2μ1Tμ2\implies \lambda_1 \mu_1^T \mu_2 = \lambda_2 \mu_1^T \mu_2

λ1λ2μ1Tμ2=0\underrightarrow{\lambda_1\not=\lambda_2} \mu_1^T\mu_2=0

正交阵

A为n阶对称阵,则必有正交阵P,使得P1AP=PTAP=ΛP^{-1}AP=P^TAP=\Lambda
Λ\Lambda是以A的n个特征值为对角元的对角阵
此变换称为合同变换AAΛ\Lambda互为合同矩阵

正定阵

(1)定义:对于n阶方阵A,若任意n阶向量x,都有xTAx>0x^TAx>0,则称A是正定阵。

若条件变成xTAxx^TAx大于等于0,则A称作半正定矩阵
(2)判定:
对称阵A为正定阵A的特征值都为正A的顺序主子式大于0\fbox{对称阵A为正定阵} 等价 \fbox{A的特征值都为正} 等价 \fbox{A的顺序主子式大于0}
n阶半正定阵的集合为凸锥。

数据白化

在这里插入图片描述
计算观测数据x的n×nn \times n的对称阵x×xTx \times x^T的特征值和特征向量,用特征值形成对角阵D,特征向量形成正交阵U,则:x×xT=UTDUx \times x^T = U^TDU
x~=UTD0.5Ux\tilde{x}=U^TD^{-0.5}U\cdot x
在这里插入图片描述

正交基

在n维欧式空间中,由n个非零向量组成的正交向量组称为正交基

QR分解/LFM

QR分解

对于m×nm \times n列满秩矩阵AA,必有Am×n=Qm×nRm×nA_{m \times n}=Q_{m\times n}\cdot R_{m\times n},其中QQ是列正交矩阵,RR为非奇异上三角矩阵,当要求RR的对角线元素为正时,该分解唯一,是QRQR分解,可用于求解矩阵AA的特征值,A的逆等问题。

计算n阶方阵A的特征值:
A=QR    A1=QTAQ=RQA=Q\cdot R \implies A_1=Q^TAQ=R\cdot Q

............

Ak=QkRk    Ak+1=RkQkA_k=Q_k\cdot R_k \implies A_{k+1}=R_k \cdot Q_k

............

Akdiag{λ1,λ2,...,λn}A_k\to diag{\lbrace \lambda_1,\lambda_2,...,\lambda_n\rbrace}

LFM

LatentFactorModelLatent Factor Model
对于K个隐变量,得Am×n=Um×kVn×kTA_{m \times n}=U_{m\times k}\cdot V_{n\times k}^T
目标函数:
J(U,V;A)=i=1mj=1n(aijr=1kuirvjr)2+λ(i=1mr=1kuir2+j=1mr=1kujr2)J(U,V;A)=\sum_{i=1}^m \sum_{j=1}^n (a_{ij}-\sum_{r=1}^ku{ir}\cdot v_{jr})^2 +\lambda (\sum_{i=1}^m \sum_{r=1}^ku{ir}^2+\sum_{j=1}^m \sum_{r=1}^ku{jr}^2) \quad
梯度:
在这里插入图片描述

(三)矩阵求导

向量对向量求导

线性回归中直接使用下式
Axx=AT,AxxT=A,(xTA)x=A\frac {\partial A\vec{x} }{\partial \vec{x}}=A^T , \frac {\partial A\vec{x} }{\partial \vec{x}^T}=A, \frac {\partial({\vec{x}}^T A)}{\partial \vec{x}}=A

推导如下:
在这里插入图片描述

标量对向量求导

AAn×nn \times n的矩阵,xxn×1n \times 1的列向量,记y=xTAxy={\vec{x}}^T \cdot A \cdot \vec{x}
yx=(xTAx)x=(AT+A)x\frac {\partial y}{\partial \vec{x}}= \frac {\partial {({\vec{x}}^T\cdot A \cdot \vec{x})}}{\partial \vec{x}}= (A^T+A)\cdot \vec{x}

若A为对称阵,则有(xTAx)x=2Ax\frac {\partial {({\vec{x}}^T\cdot A \cdot \vec{x})}}{\partial \vec{x}}= 2A\cdot \vec{x}
推导如下:
在这里插入图片描述

标量对矩阵求导

AAn×nn \times n的矩阵, A|A|AA的行列式, AA=(A)T=A(A1)T\frac {\partial |A|}{\partial A}={(A^*)}^T=|A| \cdot (A^{-1})^T,证明如下:
在这里插入图片描述
矩阵乘法详解+例题

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章